敢问路在何方? 路在脚下!

这是一篇年度总结文章. 回顾了2016年对人工智能进展的理解和思考。 新的一年, 新的开始, 祝大家好运!
今年夏天, 微软的前员工和实习生在Harry的倡导下,终于组织起来,成立了西玛会。 如此标志性的事件,只能用:“不看不知道, 世界真奇妙” 这句话来形容。大家聚在一起才发现, 原来微软研究院的影响力早已渗透进中国计算机相关行业的方方面面。 西玛会已联系到的1千多位会友, 据不完全统计, 包括十几位IEEE/ACM 院士, 几十位大学教授, 上百位创业者, 和若干投资人. 尤其是在最近大火的人工智能领域, 几乎所有的都当红公司,都与微软研究院有各种联系.西码会成立后第一次小聚在创新工场, 当时大约有两百人左右参加. 我也斗胆要求上台讲讲, 于是有了这篇讲稿:AI时代做产品的思路。众人机会不免有各种思想碰撞, 为了把自己的想法记下来, 方便后续总结参考。 就有了这个公号。夏天天气火热, 和同学们交流讨论的也十分热烈。 本来一开始我对人工智能的再次热度是一种围观的态度, 源起是因为当年的工作做图模型学习, 实在是觉得这东西没有大用, 就当了逃兵, 去搞用户体验之类的所谓软科学。  这个过程在AI的未来–深度学习和贝叶斯的进击 里做了小结。 当然去搞用户体验还有另外一层目的, 对单身男青年来说,这个行业男女比例比码农行业强的多。。。

跟同学们一攀谈, 发现不得了, 原来这次真的不一样, 我们似乎快到了门槛了, 要认真对待, 于是就先从宏观角度摸索了一下:AI,VR和人类未来命运的思考。 得出了结论, AI的发展是一种大量获取负墒的过程, 这是一把双刃剑, 如果系统封闭边界, 获取负墒越多, 就越不稳定, 早晚归零(墒的最大化是基本原理)。可能的出路只能是拓展系统边界, 也就是搞宇航, 去火星。 这简直就是一种人生观。 我相信Elon Musk 和霍金都是这么想的。

在搞定核聚变来解决能源问题和找到比当前抛洒物质作为动力的化学发动机(牛顿时代的原理,可叹)更有效的动力来源之前, 搞宇航实在是勉为其难。 所以还是得想办法弄明白人工智能能进展到那一步。 AI到底能不能超过人类智能?

这需要对当前现实有个基本的理解和把握。 而现实是, 人工智能相关的研究, 包括脑科学, 心理学, 计算理论, 复杂系统, 和最火的深度神经网络, 仍然是一盘散沙, 各自为战, 还远未到能够打通任督二脉的时候。 然而这样就能高枕无忧了吗?

人工智能是模仿人的, 研究人整体,早有心理学。 与研究微观生理的脑科学不同, 心理学一开始就是把人当作一个整体来研究的。 因此很多时候,大家都说心理学不是科学, 是玄学。 换一种角度, 从心理学出发, 是一把钥匙,可以加深对人工智能的理解。毕竟要模仿什么,要先给模仿对象一个定义, 而对人的定义, 只有心理学理论里有。 聪明的秘密: 有关大脑开发的洞见大脑是如何工作的?兼谈如何做出类人智能。你的记忆, 就是你吗?智胜先师-人类能做出强AI吗?。 这一系列文章, 都是以此为出发点的一点探讨。 总结下来, 要AI能够真正触及到意识的领域, 需要搞明白的核心是记忆的机制。

此外在下半年, 人工智能界发生了几件大事, 尤其是OPEN AI的成立, 几个主要的大公司试图联合起来, 限制和规范AI的发展。 他们想做的的事情,其实属于伦理学的范畴。 伦理学可以被当作哲学的一部分。哲学的三个主要部分, 认识论, 伦理学, 美学,对应真,善,美。 伦理学是其中的善, 试图让人明辨是非, 什么是善,什么是恶, 来规范行为。 可以想象,这也是最容易引起争论的地方, 因为其实伦理学,人类自己都没有搞清楚。

在思考相关问题的时候, 偶然发现纽约大学哲学系在10月份搞了一次AI 伦理学的研讨会。 几个人工智能的大佬也去了。 翻了翻会议记录, 发现了Stephen Wolfram 的讲稿, 太有启示意义了, 于是全文翻译了一遍:AI 伦理学(By Stephen Wolfram)

Wolfram是真正的大才, 他的计算理论核心观点简直是指路明灯。其核心思对应于深度学习关键点在于: 之前大家抱怨的深度学习不可理解之类的,都其实不是问题。要说深度学习不可理解, 先说什么叫理解。 所谓理解,是要可以建立数学模型去规范描述, 这样就能一步到位, 简化问题,直接得出答案。 而深度学习和一切所谓复杂问题, 之所以复杂, 就是因为不能建立这样的模型。 要预期系统的行为, 我们能做的唯有计算。 注意这里不能建立模型, 是不能建立精确描述系统整体行为的模型, 不是说具体计算机制也不能研究。

如果这样理解, 那么其实人工智能的核心在于两点, 一个是计算能力, 一个是基本计算机制。 要有足够的计算能力, 再搞懂一些基础的计算机制, 就可以搞出类人意识。 之前大家计算能力不足, 无法从整体上研究, 因此才有各种悲观失望。

他的另外一个观点也有启示, AI和人共存, 不是要限制AI, 而是要教会AI美学和伦理学, 这样AI自然而然知道什么是善, 也不存在什么灭绝人类的问题, 我们也不会灭绝黑猩猩。 而AI的伦理学是什么, 我们现在给不出答案。 只能靠历史来演化,来计算。

从计算的角度来理解人工智能, 就豁然开朗了。 下半年还有一件引起热议的事情, 就是朱松莼老师的雄文: 正本清源:初探计算机视觉的三个源头,兼谈人工智能。 朱老师是统计数学出身, 看不惯玩计算的, 一直是想建立系统化模型。 虽然按照计算的理解这条路子可能不太通, 做出来的东西估计不太容易work, 但是双方还是可以互相借鉴的。 视觉计算-理论还是实践? 文章虽然没明说这个问题,但是也包含了一些个人思考。

既然无法建立模型, 高举高打的办法就不太好用了,最近有关神经网络压缩,和泛化能力的一些探讨也触动了一点个人想法: 理解深度学习需要重新思考(深度网络的)泛化能力。 我们知道现在的神经网络学习,非常的不充分,表现在神经网络的参数可以大幅压缩,  如果我们能够找到合适的算法, 获得完全不能压缩的网络参数(据说已经被某同学搞出来了,正在写文章中),那么将大幅提高神经网络的计算效率和准确度。要在这里深入研究, 也许要参考信息论的相关思想, 网络除了参数, 还有结构,信息几何不知能否发挥作用?

而另外一个角度, 为了方便硬件实现, 大家在尝试各种方法对网络参数做简化, 从浮点到8-bit, 从8-bit 到甚至1-bit(Do-re-fa)。 1-bit网络是硬件的革命, 可能也是是智胜GPU的关键。 但是能1-bit,性能还不损失, 正是利用了神经网络本身的大量冗余。 对照前面的讨论, 还真是让人有点为难。 值得深入思考下去。总之, 因为算法的不稳定, 各种嚷嚷做芯片的同学千万要小心。 说不定算法一革新, 硬件设计全是白费功夫。

前面一篇文章还有一个核心推断,就是深度神经网络计算在做的事情某种程度上以记忆, 是靠大量网络参数来记住数据。 这样计算和记忆放在一起,真的不是冯诺依曼结构了。做过用现有架构和思路做深度神经网络硬件实现的同学应当对此有体会。 因为计算和存储的分离, 大家只好拼设计, 怎么充分利用现有的带宽,在架构的时候做好数据流,不要让某个部分成为瓶颈,是重中之重。 现状终将导致新的硬件革命。 Xpoint是个好的尝试, 可惜现实很骨感。 忆阻器也是个好的尝试,   现实更加骨感。 做硬件创新真难! 不要壮志未酬身先死。 现代社会人口爆炸,壮士太多, 不少我一个。

从硬件的胡扯拉回来。 大脑的快乐系统,以及对我们生活的启示 这篇总结脑进展的文章也可以对人工智能研究有所启示。 人可能就是一台自然选择出来的化学计算机器, 大脑也并没有那么特殊。虽然前路漫漫, 朦胧之中仍然能看到一点曙光。

本文结尾,引用周恩来总理的一首诗,雨中岚山,中的几句。 还是在1919年, 大革命的年代, 作为青年学生的周总理留学日本, 将要回国,临行前游览日本的旅游圣地岚山。面对当时中国的各种复杂情况,心有感触, 写下这首诗。 这里摘录几句:

潇潇雨 ,雾蒙浓,

一线阳光穿云出,

愈见娇妍。

人间的万象真理,

愈求愈模糊,

模糊中偶然见着一点光明,

真愈觉娇妍!

2017年, 祝大家更上一层楼!

理解深度学习需要重新思考(深度网络的)泛化能力

临近圣诞,先在这里祝大家圣诞快乐! 圣诞节欧美的同仁们都回家过节与亲人团聚去了, 朋友圈里看到好几个海外生活的华人同胞在晒人去楼空的景象。这个洋节传到中国是完全另一种景象,回家团聚要等春节,于是圣诞节担当起了朋友聚会,各种旅游玩耍的任务。 一个典型的中国式过节“习俗”就是年轻人玩的圣诞节送苹果。据说是因为圣诞节平安夜-平安-苹果的谐音这么联系出来的。而且已经发展到了一到圣诞节前,大学便利店最显眼的位置就会堆满包装精美的小盒子, 大约20-30块钱一个,里面是一只苹果。中国商人的商业嗅觉和想象力真是令人佩服, 这就是创造力啊!说完一堆废话,回来今天的主题, 我们来读一篇google brain的人写的文章, 标题就是本文的题目,作者期望能对深度网络为什么有效做出一点点思考。

写文章也好,做报告也好,核心要义是要在充分把握读者是谁的基础上构思合适的内容。 这样可以比较好的把握内容的深度和趣味。但是我写的文章乱七八糟不聚焦,相信各个层次的读者都有。 因此所谓充分把我读者在我理解就是没法把握。本文基本会按照最容易理解的方式来讲述,特别浅显的解释会写在括号里。 一些有意思的技术点就只好放弃了。 建议有兴趣的读者还是去阅读一下原文。

正式读文章之前再跑一下题。 之前跟我的导师学到过如何读学术论文的秘技。说穿了也不难, 就是先看摘要, 看看文章作者总结的重要贡献,是不是够新够重要。 再看开篇的介绍,主要是看作者是否对学术研究的现状有个适当的把握,再就是研究的问题对不对。 之后看结论,看看文章最后的结果和自己目前在做的事情是不是有关联。 这三步每一步都可以筛掉一些, 走完三步花不了多少时间,但是基本上可以筛掉百分之95以上的文章。 剩下的一些, 可以拿来细读。 这里介绍这篇文章, 就用这种思路。

先看摘要, 作者先提到深度神经网络在训练用的数据(有答案用来学习的)和测试数据(没有答案用来考试的)上的差异令人惊叹的小, 意思是深度网络是个优等生,不论什么都一学就会,而且成绩很好。 用传统思路来解释这种现象(为什么是优等生):要么是模型本身特性好(优质家庭出身好),要么是用到了合适的正则化(不太好简单类比, 可以当做学的时候有个好老师,保证你不会学歪了),二选一。本文做了很多实验, 认为不能这么理解。 我们用当前流行的图像分类任务做了个实验,让深度学习去学随机的类别标记(就是看图分类这种事情, 老师教的是任性随机分类),发现网络一样 学的很好。这种现象就不能用常规的正则化来解释了(老师是胡乱教的,所以其实没有好老师)。甚至我们用随机图像(连题都是胡乱出的)深度网络也能学好。 我们又通过实验来确认这种现象可以用也应该用某种不一样的理论来解释。实验证明,当深度神经网络中的参数数量一旦比要学习数据点个数多,深度网络就有了这种学习能力(原来是个死记硬背的好学生,就靠脑子好, 记忆好, 什么都能记得住)  我们与其它传统模型对比了下(你们不够好, 记性不好,脑容量太小)。

看完摘要,自然会好奇, 啊,真的是这样吗? 就靠死记硬背,那碰上没见过的题为什么也能做的不错? 继续往下看。

介绍:我们知道深度神经网络有很多很多参数(存储的容量), 比训练样本的个数多的多(要学的东西)。深度网络又有很好的泛化能力(没见过的题一样给出正确答案)。传统的模型都不这样(死记硬背的一般没那么灵活聪明啊)。 怎么来解释呢? 统计学习理论提出了各种有关复杂性的度量(可以类比为掌握学习方法), 并且认为通过这些度量能够控制泛化能力(好的学习方法可以让人在死记硬背基础上变的聪明),这些方法包括, VC维数, Rademacher 复杂度,  一致稳定性等. 读者君要是碰到看不顺眼的号称自己是搞机器学习的大师, 就问问他这三个概念, 让他给你解释一下, 要是他说不清楚, 那就是伪大师。 然而这些方法都说,如果参数多,那就一定要做正则化约束(实际上没有做)。要么也可以搞搞early stop(意思是死记硬背的越多,脑子约不灵活, 所以适可而止, 学一部分就算了,糊里糊涂也许碰到没见过反而考得更好 )。到这里的意思是说, 以前的理论都解释不了。

跳过文章下面对实际实验和相关工作的介绍, 要说这个这篇文章就太长啦, 我们直接去看结论。

结论:传统的观点认为机器学习是建立在所谓Parsimony(简约性)的基础上的。 也就是所有学习过程可以被简化为在抽取数据集上的低复杂度模式。而简单粗暴的记忆不被认为是一种有效的学习方式(要聪明的学习, 掌握一般原理,原理都很简单, 不能死记硬背) 。于此同时,全靠死记硬背又是一种解决问题的有效方法(学习好就是记性好)。

本文挑战了这种传统观点。 很多深度神经网络就靠记忆好。记了大量的东西, 就有很好的泛化能力(变聪明了), 那么怎么解释泛化能力(变聪明)呢? 也许是所谓泛化能力(聪明)已经紧密结合在所谓记忆的细节里了。 而传统的理论都没法研究这一点。我们相信,本文是首次探讨这个问题的, 期待今后通过对泛化能力的研究可以对理解网络的学习有所帮助。

文章结论的意思是说, 虽然我们没有给出问题的答案, 但是告诉你们传统的理论解释都行不通, 我们需要找到新的更合适的方法。 一流文章提问题, 二流文章解问题。 以此标准, 这是一篇一流文章。

下面开始作者的胡思乱想。类比人的学习, 从小我们就知道, 聪明的首要因素是记性好, 记性好就聪明。 所以培养小孩, 先培养记忆力。 而培养记忆力的传统方法就是死记硬背多做题 。

还有一个有趣的现象, 就是很多小学,初中的学霸, 一上高中就不行了。 怎么理解呢? 本文给出的启示是, 只靠死记硬背多做题, 基本就可以搞定小学,初中阶段。每个人都具有死记硬背的基本能力, 只要花足够多的时间, 多做练习,严格自律就可以。 而一个人的时间终归是有限的, 要睡觉,要吃饭, 就算剩下的时间都拿来学习也就那么多。 所谓人力终有穷尽,  一到高中,知识量太多,时间有限,死记硬背能够达到的高度就大大的受限了。这些传统的学霸就败下阵来,而聪明脑子,也就是泛化能力强,会举一反三的, 开始制霸学界。

那么怎么培养出聪明脑子呢? 这事就深了, 至少以上这篇文章甚至都还没有触及到这个问题。 我们唯一知道的是,死记硬背多做题仍然有用。 先做好这个再说。

 

 

 

 

大脑的快乐系统,以及对我们生活的启示

今天我们聊聊脑科学。 学AI的人总想着类比大脑, 但实际上目前所做作为离大脑的工作机制相去甚远。我们也一直试图理解大脑是怎么工作的, 搞明白大脑的工作机制是相关专业的所有学人的梦想。 但话虽如此, 目前的科学进展仍然是刚刚起步。 我们到底走到那里了, 有两种看法。看法1:假如把大脑的工作机制比作大海, 我们目前只是在海边拾贝壳的小孩子, 捡到了被大海的波浪推上沙滩的几片小小的贝壳。 看法2:我们已经造出了蛟龙号,正在尝试下潜试图看到大海最深处, 虽然完全了解大海的概貌仍然不太可能, 但是大海的内容按照深度分了层级, 每层都一样, 只要我们能看到最深处是什么, 并且了解之上的每一层是什么, 就能了解大海的行为。 以上两种说法,读者君你信那一种? 以下是正文。

按照阅读文章我肤浅的理解, 研究大脑工作大概是分为两种路数, 一种是从底层玩弄单个神经元, 微观细节, 电化学机制, 看看神经细胞之间的活跃机制和信号是怎么传递的。 另外一种是从宏观角度, 研究大脑的分区功能。相对应的我们大致有以下研究手段, 比如可以在自由运动的小老鼠身上研究单个神经突触的信号, 也可以用所谓的无损方法高清晰核磁共振脑成像, 看看大脑的血氧浓度, 什么区域被激活。当然还有脑电, 这个就更笼统了。

但是现在手段的局限性在那里呢?跟某同学(感谢陈大师)交流时他说, 先不说老鼠, 斑马鱼这种简单生物, 神经单脉冲信号是ms量级,而具体到每个基本计算突触大概是100-1微米的尺度 。而发生记忆和学习机制导致的变化以天计算, 斑马鱼一共有10万个神经元。 以上时空尺度横跨7个数量级, 更不要说小鼠的脑神经是斑马鱼的一万倍。所以研究单个神经突触信号的同学一定不觉得自己可以搞明白大脑的工作机制。

另一方面, 所谓无损脑核磁共振成像, 现在最高分辨率的高清晰成像一个像素代表着8万个神经元, 100万个突触。而且既然是成像, 时间分辨率也惨不忍睹。  这好比是戴着老花镜, 研究远在几千公里之外的一只蜂鸟翅膀的震动。所以研究脑神经生理的同学也一定在吐槽, 觉得自己可能这辈子也不能搞明白。

所以这些脑科学的真正专家学者实际上都很谦卑, 他们大多持有本文一开始举例的第一种观点, 就是我们还差的太远太远。而作者表示因为自己是外行,所以无知者无畏。 作者持有的是第二种观点, 有生之年就能看清楚。 为什么呢? 之前的文章谈及计算时,提及到计算复杂性概念, 非常简单的规则通过计算就会产生无比复杂的结果。但正是因为计算复杂性的存在,这种计算无法通过建立模型来简化。你只能通过演算来模拟。 在没有足够的计算能力之前, 一切努力都是白费。 所以很多事情看上去毫无可能。 现在计算能力强大了, 我们开始看到一些效果,比如说深度神经网络。 当计算能力足够强大时, 也许就能揭开谜底找到答案。

请远离以上胡言乱语,我们来看看脑科学研究的最新进展,也许对AI研究也有一点点启示。 以下内容主要参考了2015年neuron上的一篇综述文章 Pleasure systems in the brain(大脑中的愉悦系统)。

大家都知道, 人生中快乐很重要。有一种哲学叫享乐主义(Hedonism)又叫伊壁鸠鲁主义(Epicureanism)。hedonism这个词甚至在现代脑科学里被引申为让大脑体会到快乐的神经回路。

有关这个享乐主义, 最有名的一个段子是 :有一位叫做第欧根尼的学者, 平时就是住在一个桶里, 被周围的人当作狗。 而史上最伟大的统治者之一亚历山大大帝巡游帝国时,遇到了正躺着晒太阳的第欧根尼,这位世界之王上前自我介绍:“我是大帝亚历山大。” 学者依然躺着,也自报家门:“我是狗儿第欧根尼。” 于是大帝肃然起敬,问:“我有什么可以为先生效劳的吗?”哲学家的回答是:“有的,就是——不要挡住我的阳光。” 据说亚历山大事后感叹道:“如果我不是亚历山大,我就愿意做第欧根尼。”。 这个故事虽然有名, 但是不管你信不信, 反正我是不信。 这是学者们喜欢给自己脸上贴金。

抛开纯粹的享乐主义不谈, 快乐仍然是很重要的。略微懂一点脑科学,心理学等等的人都知道多巴胺, 在现有的教科书里面都会写到, 多巴胺作为传递神经信号的物质,主要作用于大脑的快乐系统。因此能引起快乐。 而一些化学结构上模仿多巴胺的物质, 比如说著名的冰毒, 能够取代多巴胺刺激大脑的功能,带来极其强烈的刺激, 因此冰毒是毒品中最可怕的一种。 一旦染上,基本无解。

而neuron的文章总结说, 以上说法是非常片面的。 大脑真正的快乐机制不是这样。 大脑中引发快乐感受的神经回路主要有三种, 一种我们知道的最多的是多巴胺起作用的大脑皮缘层的A部位(抱歉一些专有名词就不翻译了, 都是特指大脑的某一块区域某种结构,对外人来说如同天书,也没有了解的必要,以下都以字母为代号)。这一块的主要作用,是刺激人想做某事(want),是想要, 是欲望。 欲望很重要, 没有欲望,人自然就各种消极, 什么都不想做。 但是欲望不是真正的快乐。

第二种回路,用所谓享乐主义的衍生词指代的神经系统B, 主导的真正的快乐, 快乐是一个满足的过程。 拿吃东西来举例, 突然想吃某种东西是欲望, 大脑的A系统起作用。 真正吃到了东西, 吃的过程是一种享受, 是真正的快乐, B系统在起作用。 但是B系统本身的效用是递减的, 好吃的吃好几遍就不那么好吃了, 入芝兰之室久而不闻其香。 再好的东西, 熟悉了就会腻味。都跟这个相关。

第三种回路, 是跟学习相关的, 称为C。 大脑是一个模式机器, 不断的在预测, 尝试匹配, 试图建立某种模式。 也就是学习的过程, 这个过程是苦的, 但是模式建立的一刻,也就是学会了, 是快乐的。有人说科学发现的一刻,是人类能够体验到的最大的高潮, 就是学习有所成就所能给予的极致奖赏。

这三种机制,都可以和生存竞争联系起来。可以说是自然选择的结果,详细讨论可以另写一篇,这里就不展开解释了。

有A欲望,B享受, C学习这三种划分, 就可以扩展开来理解很多现象。比如很多毒品因为刺激的是A欲望, 而没有B享受的过程, 所以并不是真正的快乐, 只是欲望让人欲罢不能。 一旦撤掉毒品, 副作用就是极大的折磨。 英文里有个专有名词坦塔罗斯就是指这个。

坦塔罗斯是希腊神话里的宙斯之子, 因为无法无天的各种恶行,得罪了众神,被打入地狱。 他站在一池水中间,波浪就在他的下巴下翻滚。可是只能忍受干渴,永远喝不上一滴。他只要一低头,水位就会下降,永远保持在他下巴的位置。同时他又饥饿难忍。在他身旁就是一排果树,结满了累累果实,吊在他的额前。他只能看着,一伸手大风就会把树枝吹向空中。欲望永远得不到满足。

佛家因此而说, 认识到了欲望是万恶之源。为此开出的药方是屏蔽一切欲望。然而按照大脑的机制, 没有A,  也就没有B,得不到事实上的满足。  这样的心态是脆弱的, 非常经不起诱惑。

有欲望,就去实践满足是一种实用主义的态度, 享乐主义就是其中之一。 很多人生哲学就停留在这里, 认为人生需要追逐快乐, 把自己保持在B状态里。 然而按照前述B的机制, 重复的东西不能带来同样的B享受, 必需时常换新。 因此追求B状态的保持很难, 需要极大的物质资源支持, 而且经常会腻。对一些富人贵人来说,  当一切的传统刺激都不起作用了, 就会胡作非为。

只有C学习,可以贯穿一生。 因此不断的学习, 特别是在艰苦的学习之后,因为技能的习得获得一点小小的但是真正的快乐,可以鼓励你继续走下去。学无止境,可以伴随一生。 这样的才是对以上大脑机制理解之后,推断出的正确人生态度。

掌握这样的理论,犹如掌握一把大锤,可以用来解决人生的各种疑难, 比如什么是真正的婚姻,如何让爱情永恒。 爱一开始是一种欲望A, 然后是互相拥有B, 这个阶段因为是真正的享受, 非常的快乐, 然而随后大脑的享受平衡机制开始起作用, 时间久了就腻,就有人开始追逐别的新鲜刺激。靠享受不能相伴一生。 唯有学习C, 互相学习,互相欣赏,共同提高,才是真正的人生良伴。 才是最高质量的婚姻生活。 比如杨绛,钱钟书,钱写的书,杨是第一个读者,并能给出很好的修改建议。两人互为精神伴侣,成为大家学习的榜样。 可以轻松举出无数的例证来证明这种观点。

电影阿甘正传里, 有一段时间因为女友不告而别的刺激, 阿甘开始横穿美国的跑步,其实他漫无目的, 因为跑都够久,就引来了很多追随者。他们觉得跑步本身也许就是一种人生意义。而当阿甘突然不跑了, 一众追随者都不知道该怎么办,问阿甘,我们下面该做什么。 阿甘也给不出什么建议。 而读完本文的诸位,都可以轻松给出建议, 去学习!

人类一思考,上帝就发笑!

(全文完)

有关AI的一点随想

今天的文章没有主题, 想到什么写什么

这两天业余时间翻完了一本讲古典音乐的书, 叫”乐之本事”. 强烈建议古典音乐爱好者阅读, 如果对古典音乐有兴趣也可以翻翻, 原书作者说他是写给爱好者的入门书, 其实他高看了爱好者的基础知识水平. 也许是想说的东西太多, 用了很多专业名词, 说起用户体验, 对初学者并不那么友好(职业病犯了).  但是读过总比没看好, 帮着做个广告.

其实原书中说的最多的还是审美, 不光是音乐, 所有的艺术, 甚至人生的意义. 归根结底是美学. 所谓艺术的科学是美学, 科学的科学是哲学. 其实美学和哲学是相辅相成的, 二者合一, 就是道.

谈及美学, 绕不开的就是李泽厚先生的美学三书, 这本来是三本书, 美的历程, 华夏美学, 美学四讲.  三本书各种版本不知出了多少, 也有就叫美学三书的合计版本. 美学也罢, 哲学也罢, 琢磨起来都费劲, 因此这类书一般都小众. 能出这么多版本, 已经是超出想象的影响力了. 也就是所谓绕不开的理由.

但是个人看法, 美学三书终归只是入门读物级别的东西, 要想深入体会, 还是得到西方的经典著作里去找. 中国人的传统美学, 李泽厚先生讲了很多很多, 但是不透, 最后还是得看金刚经,道德经和易经. 玄之又玄, 众妙之门, 太高, 一般人可能也够不着. 阳春白雪,应者寥寥. 高手寂寞, 又想布道,  真的是很矛盾啊.

李泽厚先生在建国后和朱光潜, 蔡仪,有一场著名的美学论战, 本来美学可以有很多种, 但是最后无产阶级革命美学总要胜出, 所以这个嘴仗要打. 打起仗来情绪激动, 就会超水平发挥, 为了争取围观群众支持, 也会说的比较直白. 强烈建议好奇的群众翻出史料去围观一下.

说了一大通, 没有半句AI,  不是关于AI的随想么? 所谓随想, 就是这样的啊.

其实本文是想说, 因为美学和哲学最高, 可以说是人类最上等的知识和成就. 要想做出类人AI, 不能只在工程里打转, 一定要搞懂美学和哲学.

继续跑题. 乐之本事这本书里谈到对音乐的审美, 因为音乐本身是个序列, 不像画或者图像一样能让人一开始就人掌控全局. 音乐一开场你并不知道接下来会听到什么, 在听的过程中, 一般人的的工作记忆容量也有限, 听到后面, 前面的也许就忘了, 没有一个全局的上下文可以依托. 因此音乐的主题都要反复重复,  从信息论的角度看,有大量的冗余信息. 即使这样, 仍然表现力有限, 存在信息量不够的大问题, 所以古典音乐发展到后期, 主流越来越依重唱, 贝多芬的第九交响曲, 最后是大合唱, 而我们耳熟能详的音乐, 大多都来自歌剧.  因为结合文字, 信息量才能更多.

创作, 可以认为是作者和读/听/观者之间一个传达信息的过程. 作品就是要传达信息的媒介和载体. 音乐又是一个非常特殊的例子, 完整的传递信息, 需要作曲的人和演奏的人合作来提供, 通常是各占一半, 作曲的人需要把自己的丰富感受压缩在乐谱上. 演奏的人虽然自由些, 但是仍然受限于手中乐器的表现力 (钢琴因为表现力最强, 被成为乐器之王) . 所以就算作曲者和演奏者都尽力了, 仍然不能提供完整的信息, 还有很大一部分需要脑补. 这就是为什么欣赏古典音乐需要一个学习的过程. 当然, 不学也能欣赏到一部分, 有人天生就敏感, 能自通乐理, 但是大部分人需要训练.

音乐/美术/文学这些东西, 归根结底都是大脑的安慰剂. 大脑天生喜欢探寻模式, 通过观察模式, 结合自身的记忆, 如果能总结出所谓规律, 大脑就会兴奋.   寻找规律的极致是就是所谓借此体悟到人生的道理.  从信息量角度上讲, 音乐,美术, 文学依次扩大. 但是从悟道的角度上讲, 听到音乐有所触动,最有可能悟, 美术次之, 读完一本小说悟道的最少. 因为压缩后的信息才是最精华的部分.

那么人生的道理又是什么的,  能让大脑愉悦的是两类东西, 一类是以多巴胺为代表的兴奋剂. 正向刺激, 高潮体验. 一类是以内啡肽为代表的安慰剂. 在经历过痛苦不适后的反向刺激, 对应的是舒适.  两类典型的毒品, 冰毒是正向刺激, 兴奋狂躁, 极端的会去吃人咬人. 海洛因和鸦片是反向刺激, 舒坦,昏昏欲睡. 两者都会上瘾, 前者比后者更可怕. 辣椒和跑步的上瘾是后面一种. 换个控制论的角度, 一个是正反馈, 一个是负反馈.

从系统论的角度, 管理一个系统的终极奥义, 是用负反馈约束正反馈, 没有适当的正反馈, 就是死水一滩. 没有负反馈约束, 系统不够稳定, 早晚就爆掉了.  那些管理公司的真正高手都懂这个道理. 大脑也是这么管理的. 所有的复杂系统,都是这么管理的, 才能生机勃勃, 又存在秩序.

BTW, 说AI说的太少? 我全文都在说AI. 就喜欢故弄玄虚

暂时就想到这么多,  谢谢观赏.

AI 伦理学(By stephen wolfram)

本文是Wolfram/Mathematics 的创始人和总裁Stephen Wolfram 于今年10月14日-15日在纽约大学哲学系,脑,意识和认知研究中心举办的人工智能伦理学会议(Lecun, Russell等人有出席)上的讲话. 因为其中包含非常深刻的思想, 因此本着科学共享的精神在这里翻译传播, 尚未征得作者的允许(已经发出邮件,未收到回复). 原文链接在: http://blog.stephenwolfram.com/2016/10/a-short-talk-on-ai-ethics/.

简单介绍一下Stephen Wolfram, 此君的各种作为只能用神奇来形容, 早在个人电脑刚刚出现的80年代初期, 大家还在用命令行, 此人就搞出了一个能够做符号运算, 搞定因式分解,求导和积分等等公式推导的神奇软件Mathematics. 其后趁着互联网热潮又做了一个知识图谱的网站wolfram alpha, 号称要收集并且结构化人类的客观知识,苹果的siri回答知识相关的问题就用的这个网站. 在2002年此君写了一本1000多页的大书, 一种新科学, 试图从计算的角度解释世界(跟本文的思路一脉相承). 对错姑且不论(个人对纯数学哲学不是很感冒), 这份情怀是世间少有. 此君的核心思想是, 从简单模式中通过计算演化出来了复杂性, 而包括现实世界复杂性的所有复杂性都等价.  同时正是因为计算演化出来的复杂, 并不能跳过运算过程直接预测结果, 内含的哲学思想是,  虽然复杂性等价, 但现实因为计算演化的不同而不同.  也即一切都是历史, 历史成就当下, 未来不可预期.  这是一种透过现象看本质的思路, 值得更多思考. 括号内为翻译原文时帮助理解所加.

_________________历史感的分割线_________________________

谢邀!

要知道, 我出现在这里(纽约大学哲学系)本身就很有意思. 我妈妈是牛津大学的哲学教授, 所以我从小就下决心不讲或者研究有关哲学的任何东西(不知小时候受到什么压迫). 但是这次我来了.

在具体讨论AI之前, 我先谈谈自己的世界观. 我的人生基本上是在研究基础科学和开发工程技术之间摇摆. 自打有记忆起, 我就对人工智能产生了兴趣. 但我从孩提时代开始研究的却是物理和宇宙学(要跪!).之后我又搞了能够自动化数学计算的技术. 这件事情做的非常成功, 因此我开始思考是否可以面向所有事物提出理解和计算一切的理论. 大约是1980年我开始琢磨如何建造象大脑一样的东西, 因此研究了一点神经网络, 但不是太深入.

就在同时, 我又对科学中也许更大的问题产生了兴趣: 如何得到有关一切的普遍理论. 近代300年来占统治地位的思路是用数学和方程来描述. 但是我想在此之上走的更远. 我意识到这个更大的问题原来可以用类似程序的思路, 来考虑计算宇宙的全部可能程序.

Cellular automata grid

这导致了我个人的伽利略时刻(伽利略通过望远镜观察宇宙做出了伟大发现)出现, 我通过制造我的程序望远镜, 一些简单的计算程序, 其中之一规则30 能够从无到有制造出永不可穷尽的复杂.

Rule 30

(简单解释一下这两张图, Stephen 所谓的简单计算程序, 是从一个方块开始, 两种颜色表示0/1状态, 下一行的方块是0还是1, 根据上一行最相邻的3个方块来决定, 这样只要有一共2的三次方全部8种可能的组合规则.就可以无限计算下去, 第一张图是不同规则得到的计算结果(思考题, 一共有多少种不同规则?), 可见大部分规则都没有演化出复杂图案, 有一些非常简单, 稍复杂一点有类似分形的, 而其中用30号规则计算出现的图案就是上图, 是Stephen最喜欢的, 宣称是自己毕生最伟大的发现)

当我看到规则30时, 我意识到某种在计算宇宙–或者包括所有自然世界中普遍存在的东西出现. 这是令我们看到的现实世界如此复杂的真正秘密.  同时也是一扇窗户呈现出原始(Raw),无约束计算的模样. 而我们传统意义上在工程中使用的计算都是足够简单也可以预期行为的.

当我们真正跳进计算宇宙中, 所遇到的事物会更加宽广. 我的公司做了非常多的研究, 发现类似程序可以用于多种不同目的, 比如规则30可以用来产生随机数. 而现代机器学习也是对与传统工程方法不同且范围更加自由的计算模式的探索.

对一般意义上的计算宇宙我们能说什么? 好, 考虑所有的这类程序都在做计算, 我多年前就发现了我称之为计算等价性的原理– 具体是说, 如果某个计算明显不是简单的, 它通常就会对应于某种最大化复杂性的计算. (不是简单, 就是复杂, 简单可以不同, 但是所有的复杂都同样复杂)  基于这个原理可以做出非常多的推断. 比如计算宇宙是普适的, 也应当是不可预期的, 也就是我称之为计算不可规约性(computational irreducibly).

(这一段有点绕口, 简单解释两句, Stephen认为计算可以分为简单的和复杂的, 传统意义上都是简单的, 用公式来算, 而真正的现实世界的是所谓复杂的, 没有公式, 不能提前预判, 只能通过计算来一步一步算出来, 而且所有的复杂计算复杂性都相当, 都是极端复杂 🙂 )

An example of cellular automata

(见上图的结果) 你可以预期接下来会发生什么吗? 它或许就是计算不可规约的, 你不能提前判断发生什么(不存在简单规律和模式), 只能通过一步一步的计算过程来推导. 整个结果虽然都是确定性的, 但是某种意义上确实自由的, 因为(不通过每一步的计算)你并不能预期(某个特定未来时刻)会发生什么.

现在我们来谈另外一件事情, 什么是智能? 我的大一统原理说, 一切都是从微小的程序(规则)计算而来的. 我们的大脑也是可以被计算等价的. 在智能和大多数计算之间并没有明确的界限(Really?).  天气本身没有脑子. 但是天气变化所涉及到的计算并不比大脑更简单, 虽然对我们来说, 两者的计算非常不同. 因为天气的计算与人的目标和经验没有任何关联, 只是自己在演化自己的原始(Raw)计算.

如何来驯服计算呢? 我们必须把它和我们的目标融合起来. 而第一步就是描述我们的目标是什么. 过去30年我就是在做这样一件事情!

我建构了一种语言–称之为Wolfram语言- 用来表达我们要做什么.  这是一种计算机语言. 但是和其它计算机语言都不同. 因为它并不是用来告诉计算机每步做什么, 而是用来建构有关计算和世界的知识. 这样只要人类用我们的方式描述我们的目标(想干什么), 这个语言可以让实现目标所需的其他一切都尽可能的自动化.

其中的基本思想, 从mathematics这些年不断的发现和进展中来, 工作的非常好.  它同时也是Wolfram/Alpha(网站)的内核, 在那里(网站)处理纯自然语言问题, 理解问题, 并用关于我们文明(好大帽子)的某种精心组织好的知识和算法来回答问题. 而且, 同时, 它是非常典型的人工智能事物. 因为我们回答了十亿级别的用户提出的数以十亿计的问题.

我最近有个有趣的经历, 关于如何用我们的技术来教会孩子计算性思维. 我在给一本书写习题, 起初的题很简单, 类似”如何编程实现X”, 随后的问题开始复杂, 我知道怎么用Wolfram 语言来描述, 但是不知道怎么用英文来说. 当然这就说明了我们为什么要花30年来构建Wolfram语言(这广告做的…) .

英文包括大约两万五千个通用词汇, 而Wolfram 语言现在有大约五千条经过精心设计的基本构件(Built-in construct)–包括所有最近的机器学习进展– 以及描述了百万级不同的基于精心组织的数据的事物. 其中的思路是任何一个计算世界中的事物, 都应当可以很容易的用Wolfram 语言来描述. 最酷的是, 这真的有用. 人类, 包括孩子都可以用这种语言来读写, 计算机也一样可以. 这是某种高层次的桥梁, 用来连接计算和人类在自己文化上下文中的思考.

好, 那么关于AI呢? 技术通常是对已存在事物的发现, 并驯服事物自动达成人类的目标. AI 中我们驯服的是计算宇宙中的事物. 现在, 我们身边就有非常多可见的原始(Raw)计算. 因为自然界中这样的事情一直在发生(想象天气, 洋流). 我们感兴趣的是如何让它和人类的目标关联起来.

那么回到伦理学, 也许我们应当约束计算, 也就是AI, 只做符合伦理学的事情. 这意味着我们需要找到某种方式来描述它.

那么, 在人类世界, 我们做事情的方式是制定法律, 但是我们如何把法律和计算联系起来? 或许可以发明”合法代码”的提法. 但是今天的法律和合同都是用自然语言写的. 在财务领域有很多简单可计算的合同. 现在谈谈隐含存在的关于智能的合同. (原文比较口语化,不太好翻译, 大概意思是说怎么能让AI认可人的法律 )

对于大量存在的法律怎么办? 好, 莱布尼茨, 下个月是他逝世三百周年纪念日, 一直在讲要构建一种通用的, 我们正在探讨的, 能全部用计算的方式来表示的语言.  作为先驱他想的可能太早了, 但是现在正是我们该做这件事情的时候了.

上周我写了一篇长文, 这里总结一下, 用Wolfram 语言我们可以处理好对世间许多种不同事物如何来表示.  这些事物包括人们问siri的各种问题. 我想我们现在已经可以提出当年莱布尼茨想要的: 通用符号话语语言来表示人类世界的一切事物.

我意识到这是一个语言构建的问题, 是的, 我们可以通过自然语言获取线索, 但是最终会构建自己的符号化语言. 这实际上跟我最近几十年在Wolfram语言上做的事情同类. 比如就一个单词”加”(Plus)来说, 在Wolfram 语言中有个函数叫 Plus(加法), 和这个单词不是一个意思.   它是一个特殊版本, 必须是一个数学意义上的加法. 同样, 在我们设计通用的符号话语语言时, 英文中的单词”eat”(吃)有各种各样的含义. 我们需要一个概念, 也许同样用 eta(吃)这个符号来代表, 但是特指可以计算的吃.

所以当我们拿到一个以自然语言表示的合同时, 为了得到一个符号化的版本, 可以用所谓自然语言理解技术, 就像我们在Wolfram/Alpha 网站处理数以十亿计的请求所做的那样, 让人来区分歧义. 另外一种办法也许是类似用机器学习描述图片一样, 但是最好的方法就是用符号形态的语言来写. 而且我猜律师们不久以后就会这样做.

当然, 当你有一个符号形态表示的合同时, 就可以直接用来计算, 自动验证是否合规, 模拟预测不同的产出, 自动聚集条理化,诸如此类. 最终合同能从现实世界中自动获取输入, 而这些输入天生就是数字化的, 象计算机系统处理的数据, 或者交易比特币一样. 这些输入可以从各种传感器和不同测量中来, 通过机器学习转换成符号.

那么, 当我们把法律表示成可计算的形式之后, 我们就可以开始告诉AI 我们想要AI怎么做. 当然, 如果我们能把每一件事情都分解成基本原则会更好, 类似阿西莫夫的机器人三大守则. 或者功利主义之类的东西.

但是我不认为这样的事情会发生. 我们最终想做的是发现关于计算的完美约束. 但是计算在某种意义上是无限狂野的(wild)的东西(意指不可控). 哥德尔完备性定理已经展示过了. 就象我们看待整数, 通过建立习语来约束它们, 并且让它们按照我们想让它们做的那样做. 哥德尔指出没有有限的习语集合可以做到这一点(有限公理系统不完备). 任何一个你选定的习语集合, 不光包括你想要的整数, 还必然包括某些其它野(wild)的东西.

而计算不可规约现象意味者这件事情的更一般版本. 基本上给定任何法律集合, 必然会存在某些不想要的推论. 从人类法律的发展历史来看这并不稀奇, 关键点是从理论上就没办法规避,. 这是计算宇宙普适存在的. (这一大段是说简单的阿西莫夫定律不存在)

现在我想很清楚AI在今后的世界中会越来越重要-最终会控制有关人类事物的所有基础设施, 就象现在的政府. 或许也像政府一样, 该做的是建立AI的宪法来规范AI应当怎么做.

这个AI宪法会是什么?  它应当基于现实世界的一个模型, 而不可避免是不完美的.  这样可以说(AI)在各种不同条件下该如何做. 最终所做的是让对计算的约束与我们的目标一致(原文中有happen, 可以双关为碰巧, 个人理解是一种嘲讽). 那么这些目标又是什么? 我不认为现在就能给出合适的答案. 事实上, 我们列举目标就象在计算宇宙中列举程序一样.  不存在一个能抽象出来的挑选准则.

但是我们还是可以做出选择, 因为我们有特定的生物学, 有特定的基于文明和文化的历史. 这让我们从各种不同的不可规约计算中来到此处, 我们只处在计算宇宙的某个点上, 对应者我们现有的目标.

人类的目标在历史进程中可以看的很清楚, 是一直在演化的. 我猜测今后会演化更多. 我认为我们的意识不可避免的会和技术越来越多的融合.  最终我们的整个文明将终结于一个类似包含千亿计的人类灵魂上传的盒子(类似Matrix, 全部变成计算).

那么接下来的大问题是, 他们会选择这样做吗? 或许我们现在都没有语言来描述这个问题的答案. 让我们上溯到莱布尼茨的时代, 我们可以看到所有的现代的概念当时都还没有成形. 而当我们看看现在机器学习或者定理证明系统的内部, 应当可以谦卑的看到如此之多的概念和它们的有效形式尚未被我们当前的文化吸收. (这段是吐槽你们没有能力为未来操心)

以我们当下的视角来看, 那些未来没有实体的虚拟灵魂就像是在玩一个永远不停的游戏. 但是他们可能只是一开始在我们的现实宇宙的模拟中操作, 随后他们就会在计算多重宇宙的多种可能宇宙之间进行探索.

但是从某些层面来说, 他们所做的也只是计算- 就计算等价性原则来来说, 一个复杂计算本质上与其它任何复杂计算等价. 这有点让人失望,  我们的骄傲未来将终结于计算等价性, 或者说平淡的物理, 甚至是微小的规则30.

当然, 这只是关于我们并不是本质上不同的一群的一个很长的科学故事的扩展. 我们无法预期我们能够达到的终极. 我们无法定义一个终极目标, 或者终极伦理学, 某种意义上, 我们只能被我们的历史和现实的细节所包围.

不存在一个简单的原理可以在AI宪法中给我们提供想要的避风港.  将会有大量的细节对应于我们自己的历史和现实的细节. 而第一步只是要搞明白如何来表示这些细节. 我认为这正是我构建的符号话语语言.

还有, 是, 我碰巧花了30年建造框架去做这样的事情, 我更倾向于用它,也知道如何用它来构建我们的AI宪法.

所以我最好不要在继续谈哲学. 先回答一些问题吧.

(译后语, 翻译这篇文章的时候, 能感受到 Wolfram 本人一直在以神的视角观看人类. 估计一直在暗骂说你们这些笨蛋, 还想开个会来讨论怎么约束AI, 你们搞清楚你们想要干什么了吗?)

 

 

 

 

 

 

GPU,FPGA,还是ASIC? 浅谈深度学习计算的硬件选型

今天是Intel主导的边缘计算联盟成立的日子. 边缘计算这个中文名字有歧义, 往往让人产生靠边站,边缘人等不好的联想.其实边缘计算的含义就是在端上的计算, 为了与以服务方式提供的计算有所区别. 端上计算的概念喊了很久, 因为所谓物联网的起起落落, 也经历过波折. 目前物联网概念再次回暖,AI又 火的不能再火, 两者结合则让人越加兴奋. 因此相关公司要召开一次胜利的大会. 这里借势谈谈个人对深度学习计算硬件平台的理解, 企图从应用领域出发,梳理相关硬件选型和可能的机会. 学识所限, 错漏在所难免. 请批判性阅读, 如有不同意见, 欢迎留言讨论.

谈及硬件平台, 先看看市场上有什么. 目前在深度学习相关硬件平台上, Nvidia一马当前, 美其名曰AI时代的发动机. N家最先看好深度学习的应用机会, 并且在硬件特别是开发环境生态上全力投入. GPU硬件计算成为各家深度学习平台的必备品, 而大家似乎忘了AMD曾经在显卡比拼时代一直对标N家的GPU. 这是因为从开发环境上对比, CUDNN对OPENCL是秒杀.  N家的用心投入也得到了充分回报, 这体现在了不断飙涨的股价上. 可以说在深度学习模型训练上, N家的GPU平台是不二选择.

除了模型的训练, 更多的实际应用是用训练好的网络来做识别, 也就是inference. Nvidia在做inference上也有了充分的布局, 其推出的P4/P40系列和相应的面向INT8计算的支持, 又领先了一步, 在服务类应用上是新的标杆.  同时在端的应用上, 特别是安防相关的视觉计算领域, Nvidia 的TK1 又歪打正着. TK1本来是面向MID也就是pad设备推出的平台, 但是在平台竞争上被人殴打出局. 碰巧当时深度学习已经开始在视觉识别领域显出王者风范, 各家都使用Nvidia的计算库, 忽然发现因为nvidia的支持, 相关的计算很容易就可以迁移到TK1平台上, Tk1又适合部分端上比如智能相机的应用场景. 因此迅速占领了相关领域的应用市场. TK1和随后的TX1也成为类似应用的硬件选型参照物.

总结一下, 做深度学习的训练, GPU无敌, 做深度学习的Inference, N家在服务端有P4/P40, 在端上有TK1/TX1, 要想推出新平台, 要踏过参照物才能走下去. 那还有机会吗? 有的! 一旦结合具体应用, 就有数不清的机会, 市场还是非常大的.

以端上的应用来举例, 目前在市场上除了TK1之外, 唯一得到实际应用的就是Movidius. Movidius的芯片的特色是高度集成(片上集成了DRAM), 和低功耗(1W左右). 因此在特别强调体积和功耗的场合, 成为了唯一选择. 当然手机芯片在类似应用上也应有发挥空间, 奈何或许因为市场太小,手机厂家看不上, 手机芯片都没有面向计算的轻量级系统支持. 没有RTOS, 甚至没有嵌入式linux, 只能跑个andorid, 从内存占用, 启动时间等方方面面都不能忍受. 问题就是机会, 期望有良心企业有志于此类开发.

之前提到, 既然通用市场已经是GPU的地盘, 其它硬件存在的机会要看应用. AI相关或者深度学习相关从大的应用领域方面是三个方向, 语音,自然语言, 图像或者说视觉. 以下分领域再简单谈谈.

先说语音,  要坦白承认, 个人对语音应用并无深刻理解. 只是从基本概念上, 当年做动态贝叶斯网络时明白, 有向图的统计推断效率秒杀无向图. 所以语音相关的识别网络重在设计优化出特定的有向图结构. 同时考虑到语音的数据量传输在当前网络条件下不是问题, 所以语音的应用当以服务为主. 也就大致是GPU的市场.  考虑到网络仍然有延迟和连接等等种种问题,  在一些应用领域, 特别是所谓物联网, 也存在端上的机会, 而语音识别任务明确, 到目前为止相关技术和性能已经可以说比较成熟了, 算法一旦稳定下来,加上应用场景有量的支持,就可以考虑做芯片。 因此语音应用可能是最早做出面向深度学习应用ASIC的方向. 我们拭目以待.

再说自然语言理解和语义. 自然语言相关的领域应用是百度,搜狗等做搜索引擎公司理应探索的方向. 因此要做这个方向绕不开和这些搜索公司的竞争. 从应用特点上讲, 因为数据量极小, 因此基本不存在端上的机会, 应用应围绕服务展开. 而自然语言相关的深度学习应用特点是网络小,品种多, 百度为此开发了自己的深度学习库.  与这个领域应用相似的一个场景是服务器端的存储SSD, 因为要理解数据才能深度优化性能, 需要结合算法定制, 服务器端的存储SSD是FPGA应用的天下.  也许服务器端自然语言理解应用也存在FPGA的空间.

最后谈谈图像视觉,  大脑皮层里视觉相关的占一多半, 因此这一块是最复杂的. 从基本的应用场景出发, 大致可以分为感知类应用, 和交互类的应用, 感知类的应用, 又可分为被动感知, 比如监控, 辅助驾驶, 主动类的感知,  比如追踪, 机器人等等. 因为应用复杂,结合具体场景, GPU也好, FPGA也好, ASIC也好, 都存在机会. 举个例子, 交互类的应用强调实时性, 一定需要做在端上,  如果对功耗,体积没有要求, 需要GPU, 如果对功耗,体积有强烈要求, 可能要做AISC. 诸如此类, 可以单写一篇文章再谈.

写到这里, 基本可以收尾了. 在此特别想说的是, 深度学习相关应用领域相关的从业人员软件和算法出身的多, 很多人对硬件开发的周期不了解, 忽视了其复杂程度, 一言不合就要做芯片, 逻辑上很难成立.  一个硬件芯片的开发周期, 如果从零起步至少3年, 同时被忽视的还有面向应用不光需要芯片,还需要做出开发工具链toolchain, 这个可能比做芯片更难, 在有经验的人员操持下, toolchain以及相关的开发生态成熟可能又需要1-2年, 这样就是4-5的周期, 以深度学习领域的变化速度, 要看清4-5年后发生的事情而提前布局, 难之有难. 再加上各路大企业入局竞争. 小公司险中求胜可能是九死一生的荆棘之路. 这样就畏缩不做了吗?

知难而上, 与诸君共勉!

视觉计算-理论还是实践?

这两天, 朋友圈里朱松莼教授的一篇雄文”正本清源:初探计算机视觉的三个源头,兼谈人工智能”刷了一遍屏. 据了解为写此文朱老师酝酿了好久, 因为计算机视觉和人工智能长期积累之后终于做出了work的东西, 需要技术产业升级续命的金融资本主义如同苍蝇见了血,疯狂的扑了上来.学术圈也难免浮躁, 处在这个时代的CV学生们幸也不幸.幸运的是因为人才争夺战,以前无人问津难找工作的AI博士们,现在一毕业就能拿到难以想象的高薪.不幸的是过于功利的时代,本该打好基础的学生阶段大家都忙于不求甚解玩数据调参快速发文章,如果将来做研究难免后劲不足.

借一句师妹的评论: 朱老师一出场自带千军万马. 当头棒喝也许能帮到今后想从事科研的CV学生. 朱老师的文章里提到了CV创始人David Marr(本文按中文起名习惯译作马大卫)的视觉计算理论. 勾起了当年回忆.  因此这里也借机写一篇小文谈谈马大卫先生的生平和工作.

我不久之前写过一篇文章回顾了一下自己曾经做过研究工作.  这里要再次感谢一下朱老师对我研究思路给予的指导. 2000年夏天朱老师在MSR china 访问, 当时开班指点了一下我们这些迷茫中的研究众生. 印象深刻的是, 朱老师上课一开场就说你们以前学的东西全是错的! 并同时指出正确的路径是什么.  十几年过去了, 朱老师仍然用强大的气场镇压宵小, 要挑双手大拇指来赞!

回到马大卫先生, 网上能找到的生平介绍比较简单, 马大卫先生在二战的尾巴,1945年1月出生于英国伦敦, 应当算是十分幸运的一代人. 其后有baby boom的一代婴儿潮小弟托势, 非常容易做出成绩(类比中国生于80年代出生高峰之前的一代人较易成功).

马大卫先生的学生阶段是奔腾咆哮的五十年代. 社会发展欣欣向荣. 他中学毕业于拉格比(Rugby School)学校, 是英国历史最悠久的私立贵族学校之一. 其后进入剑桥三一学院学习数学. 他高中和大学毕业时都拿到了额外的荣誉奖励. 妥妥的精英学霸. 本科毕业后又对心理学产生了兴致, 跟随英国著名神经生理学者Giles Brindley 学习. Giles在视网膜和颜色视觉的生理机制上有突出贡献. 本人同时是个音乐学家, 还以某方面的出格行为而著称(感兴趣的请自行搜索).

经过本科硕士数学,博士研究生阶段心理学,和神经生理学的训练, 马大卫先生于1972年获得博士学位, 他的博士论文就是有关小脑和视觉神经生理机制的研究. 毕业后, 马大卫先生来到了MIT. MIT是人工智能研究的发源地, 当时是人工智能领域的创始人Marvin Minsky在主导工作, 有一众AI大牛.

在马大卫的遗作视觉计算这本书的序言里提到: 他到MIT是应Minsky 和 Seymour Papert的邀请. 来到MIT之后,因为DARPA和NSF给了非常慷慨的资助, 并且有Whitman Richards和Richard Held(当时主管vision基金的人)特别关照, 可以”便宜行事”, 加上一众出色的合作者, 以及本人跨领域的背景和天分, 才做出来了开创性的工作.  以上列出的这些条件应该是搞出了不起研究的必要条件. 如果再有合适的时机加成,比如有大量的实验结果, 而理论解释青黄不接时. 就可以突破.

然而幸与不幸, 天妒英才, 仅5年之后, 1977年底马大卫就被检查出了白血病, 当时是毫无办法治疗的绝症. 在用尽各种当时的医疗手段都无法治疗之后, 人生的最后一年, 马大卫写了视觉计算这本书. 严格的说, 这本书在他去世时(1980年11月17号)还没有写完. 部分内容是他的合作者和学生补充整理完成的, 首版出版于1982年.

我手头的中文译本是科学院生物物理所姚国正, 刘磊,汪云九三位翻译的, 出版于1988年. 姚先生的也因为癌症于2010年11月去世了. 他是受过中国传统文学训练的一代学人,文字功底很好, 为了翻译这本书, 也倾注了很大的心血. 他当时主办了针对这本书的讲习班, 每一章都自己或者请人来讲, 反复讨论, 务求做到充分理解. 翻译全书几个学者大概用了三年时间.  因此中译本的质量也很高.

马大卫先生在书里提过这本书是为阅读乐趣写的. 他说的乐趣也许是思考的乐趣, 因为这本书实在是不容易读. 尤其对初学者, 常常会有每个字都认得, 连起来不知道在说什么的感觉. 但是经过思考后, 尤其是体悟到其中隐含的深刻思想之后, 确实会有很大的乐趣. 每每在学界有了新的事实发现之后, 重读这本书又会感受到以前未曾体悟的认识. 朱老师说他每年都会重读一遍都有新发现. 此言非虚.

马大卫在书的导论里总结, 从哲学意义上, 全书写的是视觉的表象(representation)理论, 也就是如何从外部世界投射得到内部表示的计算框架.  因此这个计算框架是个自底向上的单向流水线. 目前应用领域里涉及到的视觉任务, 比如物体定位, 跟踪,识别, 三维重建等等都大概可以归纳在这个计算框架下.  对现在的这类研究工作仍然有指导意义.

另一方面, 当年就有人认识到, 人的视觉形成机制, 并不仅仅是一个被动接收的表示过程. 人与环境是互动的, 其中包含的不单单是自底向上的计算, 还有意识的参与, 自顶向下的指导和主动选择.  视觉里有一个门派, 主动视觉就是专门做这个的. 我们当年也基于人的眼球运动的生理现象, 做了有关注意力的主动视觉计算的研究, 并归纳其为选择性注意力形成机制的视觉. 受困于当年的计算平台, 大家只能在初级视觉里打转, 理论并没有多少应用价值.   而目前机器人大热, 在相关的视觉应用中, 这一类工作应大有用武之地.

除此之外, 在2010年视觉计算这本书出了再版,  马大卫当年的合作者,目前仍是MIT教授的Tomaso Poggio 在新版中的视觉计算框架下补充了一个学习层.  并认为学习是视觉计算高层表示中非常重要的成分. 这样就更好的呼应了最近几年所谓机器学习的研究热潮.

就研究的方法论而言, 先实践, 还是先理论,各有一派人坚持, 互相之间争执不休, 也不大可能吵出结果. 而按照中国人的传统智慧和后来西方哲学家总结的辩证法, 事物的发展总是在互相矛盾的事物之间摇摆并且最后螺旋上升的.  马大卫先生三十年前就给出了视觉计算的理论框架. 但受困于当年的计算能力, 并没有获得多少实践上的成功. 而最近的深度神经网络在实践中取得了大大的成功, 却又缺乏理论的指导. 按照事物发展的规律, 在考虑去创业挣钱发财之外, 学者们如果能静下心来认真思考DNN背后的道理, 是否能有再一次理论突破的机会?

 

智胜先师-人类能做出强AI吗?

看过我之前写的文章的读者应当知道, 我本人对于做出强AI是非常乐观的. 同时我也认为这并不是一件好事.  我的观点一直是在做出强AI引发系统内部剧烈冲突之前(AI和人的战争),必须先行拓展系统边界(宇航), 这些是由耗散结构的系统演化规律决定的, 不能以人的意志为转移. 不久前我也写过一篇文章, 大脑是如何工作的, 兼谈如何做出类人智能” 着重谈了谈思路.  整篇文章里最弱的地方是对记忆的解释. 当时想的也不是太清楚. 最近看了看有关知识表示相关的最新进展, 对睡眠的一些研究, 还有Jian提到的on intelligience, 觉得有必要再写一篇, 整理一下思路.

开宗名义, 飞机和鸟都会飞只是利用了同样的空气动力原理, 具体工作方式完全不同. 类比AI和人脑也一样.

前面一篇文章已经说过,目前最火热的深度神经网络是解决外界环境到内部表示的映射问题, 而且是头痛医头, 脚痛医脚, 只能是解决单一问题的工具, 一个子系统,最多是本我, 离强AI差很远, 而做出强AI的关键是通过知识表示把各个子系统连接起来, 其中的核心是记忆的机制. 有了记忆, 就有了自我. 下一步是解决多个AI之间的关系, 竞争合作, 是超我.

我的个人观点, 第一步, 学习各种映射,建立听觉,视觉, 五感运动等相关的子系统,这一步最难.这些功能大部分都是基因里自带的, 自然演化了数十亿年, 要靠人工赶上数十亿年的自然选择,当然难! 到了记忆自我意识,这些大脑皮层的功能, 大约只演化了数百万年, 学起来就容易很多. 而看似高级的一些东西, 比如艺术,文化,政治大约只有几千不到一万年的演化历史, 学起来就非常容易, 只要让有自我意识的AI自己玩,很短的时间就能玩出来. 而且AI玩出的东西无法预期, 也许是人不能理解的. 整个过程会越来越快, 并不那么遥远. 最近有报道说霍金,比尔盖茨反对AI的发展, 不知道霍金,比尔具体是怎么想, 但是我认为他们的担心是有道理的.

on intelligience 这本书主要就在谈记忆, 书中的观点, 大脑皮层的高级功能其实是通用的, 同样一块大脑皮层,既可以用来做视觉, 也可以用来做听觉. 这启发了大家思考是不是可以用一些比较简单的连接机制就能模拟. 书的作者为此建立了研究机构尝试了很多年, 受成书年代的时代局限, 书中建议的是一个7层的网络, 计算能力约束了想象力, 他们也不能做出什么东西, 然而相关想法是个很好的启示.

那么什么是记忆, 核心有两条,一是如何表示概念(系统的内部状态)以及概念的连接(知识,或者说是记忆), 一是如何有效学习获取知识(记忆).

对于知识表示方式, 长期以来一直有两派争执, 知识到底是确定性的还是不确定性. 不喜欢随机的人认为知识是确定性的, 而为了解决现实中大部分概念都没有清晰边界的问题, 他们搞出模糊逻辑等一套东西. 另外一派则认为自然的本质是随机的, 因此知识是对概率分布的表示, 推理只是对分布做采样. 这样往往会得到各种不确定的结果. 如果是在研究怎么做出工具, 当然确定性的东西大家更喜欢. 如果讨论模仿人, 那么引入随机性就是必然的.

最近搞知识表示的人终于扔掉了RDF, 三元组, 他们发现把实体和关系嵌入到一个子空间, 整体不光更有效率,而且效果也好. 这样终于往正确的方向迈出了一大步, 这两年在基础子空间表示方法上各种更新改进层出不穷, 效果也越来越好, 但是他们还是在搞确定的, 没有引入随机性. 需要再往前走一步.

至于知识如何学习, 简单的说, 任何模型在贝叶斯的框架下都可以学习, 关键是学习算法的效率是不是够高, 是不是能用当前的计算设备支持.  为此类比人的学习方式就很有意思, 人要学一个技能, 需要反复练习, 从一开始的主观意识, 练习再练习, 反复重复,最后变成潜意识, 就算学会了.

那么什么是潜意识?  人类学习经过总结最有效的方式就是刻意学习, 一万小时定律, 刻意学习其实就是在边界条件上学习, 要求太高学不会, 简单重复没意思, 比当前已经学会的稍难一点刚刚好, 会深度学习调参的人看到这里应当会心一笑. 你们别笑, 潜意识是结构学习, 主观学习是调参, 练习成为潜意识是学结构, 正确的结构一形成, 运算的效率就很高,  不再需要主观意识(监督指导信号)的干预, 技能就习得了.

另外一个跟学习过程紧密关联的事情是睡觉. 人为什么需要睡觉, 有各种解释, 也有各种相关研究. 最近的研究表明, 所有的高级生物都要睡觉, 甚至无脊椎动物也需要短时间睡觉. 有一种说法是说器官需要休息. 这个虽然正确但是没抓住重点, 需要休息的不是器官是脑. 脑为什么需要休息, 因为神经网络需要训练. 成批训练. 这不是空穴来风, 如果一个人长期睡不好, 典型症状就是记忆力下降, 学习能力下降, 各种东西看过就忘, 用的时候也想不起来. 同意上述说法就很容易解释这个现象, 因为没有训练好,所以没学会啊!

以上讨论记忆,知识表示和学习, 都是形而上的猜测, 也并不能推导出具体的算法或者计算模型. 但是我仍然觉得没有不可解决的障碍, 不同意作者观点的欢迎留言讨论.

从具体做事情的角度出发. 最最关键的还是效率, 包括计算的效率, 存储的效率, 计算和存储之间的通道效率. 尤其是存储, 做深度神经网络硬件实现的人已经意识到了, 把存储单元嵌入到计算单元中去, 整体的计算效率会更高.  现在的GPU甚至一些专门的神经网络硬件实现, 计算起来的瓶颈都在内存, DDR内存的带宽影响整个数据流的效率.

设计计算硬件需要考虑的核心问题是结合硬件实现和成本约束确定计算和存储单元的粒度以及架构方式. 目前存储仍然是分层结构的, 廉价大容量访问速度就慢, 访问速度越快,容量越小,成本越高. 这一是对计算很大的制约, 二是增加了架构设计的复杂程度.  因此除了摩尔定律以外, 新形态存储方式的进步, 将影响或者制约AI的进展,  直至所谓强AI, 奇点到来的时间.

回到本文的标题, 智胜先师来源于二十年前台湾一款游戏的名字, 游戏用这个名字也许是取了智胜和至圣的谐音. 先师孔圣人也被游戏当作封面. 这个游戏就是个做智力题的游戏, 没什么趣味. 但是标题含义深远, 人类学生都是可以胜过老师的, 一代更比一代强, 将来AI超过人类也是很自然会发生的啊!

 

 

做研究的奥义:象外行一样思考,象专家一样实践

最近跟同学朋友聚会,大家聊起近况,自己往往要感叹一句:“不做research已经很多年”。说话时颇似电影里一句常见台词:不混江湖已经很多年。这话说的五味杂陈,人入江湖, 还能走的干净么?从思考的角度,到做事的方式,只要混过江湖的人,都是一望便知。今天这篇小文就说说自己经验的总结。其中大部分不是自己的, 是从一本武林秘籍“象外行一样思考,象专家一样实践–科研成功之道” 里面学来的。 其实我看到这本书的时候, 自己就已经不太做研究了。 倚天屠龙记里的创立乾坤大挪移心法的高人,其实自己的内功不够, 只练到了第6层, 第7层心法是全凭想象写出来的。我也大抵如此,并没有最高级的内功, 只凭想象写文章。 读者君要学张无忌, 看到不顺的地方,自行跳过。也许是作者想错了,硬要练习就会走火入魔。

文章写多了, 往往就有了套路。 人不论做任何事, 都大概有三层境界。第一层是技的境界, 是做事情的具体技巧, 第二层是术的境界, 已经不再强调具体的技能,上升到了方法论的层次。第三层是道的境界, 术到一定深度需要道的配合,有了道才能突破障碍,无限展开。

举个例子, 比如小说里的武功, 一开是要学各种招式, 低级的有各大门派的入门拳法,剑法,后面循序渐进,有各种进阶招式,最后顶级的有少林七十二绝技之类。这都是武技。金庸后来写了一些高级货,比如独孤九剑,无招胜有招,很多人不理解,认为这是老头子故弄玄虚。而一些小说里最经典的场景, 光明顶上张无忌学会了乾坤大挪移,破遍各家武技。那怕招式不如人,都可以现学,然后招招后发先至。少林寺里鸠摩智和虚竹对攻,靠小无相功的运使,两个人玩遍了少林七十二绝技。这些其实说的都是术。有了术,只学武技的人都被通吃。再往一层是道, 到这个境界的人太少,基本上都不露脸。金书里现世可能武功最高的两个人:少林扫地僧说武功要用佛法化解,东方不败吹自己学会了天人化生,万物滋长的妙谛。这一正一邪都是道。有了道,葵花宝典就能压制独孤九剑。后来令狐冲对付学习同样武功的林平之,岳不群没有这么难,是因为大家以术对术,这些人层次不够,没有道的境界。

写了大一大堆虚无缥缈的武功,回来说research。 其实意思是相通的, 要是说技巧, 怎么做research, 至少要写一本书,或者可能要很多本书。

而道的境界是没法说的, 道可道,非常道。不能正面说,可以从反面说, 道德经里说的都是:什么不是道。道这种东西, 全靠自己悟,  而通常情况下,从术到道的进阶,要有生死体验。

第二层次的东西,也就是术,或者直白说是方法论是可以说的。术的篇幅都不太长, 比如乾坤大挪移写在一张羊皮上,小昭用手指头上的血就能让张无忌看一遍。要是一本书,以小昭的体格,恐怕血流干了也看不完。要学会术,需要技的配合, 没有技,光谈术会走火入魔。还是要先做几年research,从技巧开始学习, 切记切记。

做research的术, 或者说是金出武雄先生做research的术, 大致是这样的:

1.首先是心态, 做research不能太严肃, 要有趣。绪方先生说所谓有趣是指:精神上的放松,同时内心要认真对待。 这是辩证法, 一下子可能学不会,需要大家慢慢练习。心态放松以后, 让思维去奔跑,去飞翔,才可以有很多天马行空的想法。想法一开始可以很幼稚, 不要让现有的知识把自己框住。最好喝茶聊天跟各种不同的人多讨论,多思维碰撞,这些都是技。只举个例子,后面就不再说了。

2.要集中精力,深入思考,让自己成为问题本身。决定研究什么问题是做research最关键的事情。 发现问题需要创造力。很多人说创造力来自于灵光一现。有各种科学发现顿悟的故事。这是成功学的套路,只告诉你最容易模仿的。 顿悟固然重要,但是只说顿悟是故意的。 因为顿悟之前需要的长期思考很难。思考要集中精力, 跟自己过不去, 这是非常累和辛苦的一件事。 金出先生说他自己读研究生的时候,经常一周每天只睡2-3个小时, 还有连续74个小时只想一件事情的经历。 一般人想问题,3,5分钟就开始走神了。经过长期思考后,顿悟的时刻可以很快乐,据某些研究说是人能体验到的最快乐的事情, 这是大自然给做研究的人的奖赏。

3.创造力的基础是记忆,记忆需要在实践中反复练习。说一个人聪明, 会下意识的觉得他记性好。这是因为所谓创造构思是从记忆重组而来的。记性好是这一切的基础。 记忆是需要培养也可以培养的。 别再抱怨小时候的背书了,真的有用。 需要注意的是不能填鸭一样死记硬背,要在理解的基础上背。内容经过思考理解之后才能变成知识。知识需要反复应用和练习, 别再抱怨小时候做那么多题。

4.多和人交流,但别管别人怎么看。 又是辩证法, 做研究找问题需要思维的碰撞,因此需要多和别人交流。交流不仅限于专家同行,最好跨界。而找到问题之后,就要一条路走到黑了, 对自己的想法要够坚持, 不能轻易动摇。 问题不是那么容易解的,要不然也轮不到你了,各种挫折,错误会纷纷而来,这时的心情就象一句歌词:甚至让人开始怀疑人生。一定要挺住,才有柳暗花明。

写了4条,感觉就已经写完了,写来写去,说的基本都是怎么找问题。金出先生说做研究,找到一个好问题, 大约占6成功夫,剩下的就是努力用心解问题。金出先生的书名,“象外行一样思考,象专家一样实践” 主要说的是这个找问题的过程。

除了做研究本身,在现代社会,好东西也要宣传。 要把自己的研究写成好文章,要能出去给别人讲。这些金出先生的书里都有写,强烈推荐买一本回去仔细阅读!

翻开手头这本书的扉页,还有Harry送书给我的题字,是06年11月,到现在整整10年。金出先生是Harry的老师, Harry是我的老师。不知道我会不会去当老师。 做research的薪火相传,一代一代总是会让世界变得更好,人类生活的更幸福。那我们呢?

AI时代如何做产品经理

昨天顺为资本孟醒先生一篇AI创业我看好这三大领域的雄文在朋友圈里刷屏. 梦醒先生的名字起的非常好, 文章也写的非常好. 我之前在西玛会上也分享过自己的想法, 也是这个公号的头两篇文章:AI时代做产品的思路. 大家不谋而合, 都在说先ToB, 后ToC, 也都看好AR等未来产业变革的大方向(先给自己贴个金).
梦醒先生文章里说能做AI产品经理的人非常稀缺, 我就搭一下车, 说说AI时代怎么做产品经理.
产品经理跟用户体验一样是个被用滥了的词. 一些巨头大佬们比如360,腾讯,小米的大当家都说爱自己是产品经理. 还有一本畅销书名叫人人都是产品经理.西二旗地铁如果发生踩踏事件,受伤的10个人里面9个都是产品经理. 那么产品经理怎么还会稀缺呢?
我的理解, 大家说的其实不是一回事. 很多网上的吵架争执,归根结底是没有理清概念. 产品经理范围太宽, 行业大佬和IT新兵都说自己是产品经理, 经常讨论起来驴唇不对马嘴. 我们先对产品经理做个划分: 分三类, 巨型产品经理, 大型产品经理, 中小型产品经理.
先说巨型产品经理, 就是之前说到的那些总爱当产品经理的业内巨头. 他们其实掌控的不是具体哪一款产品, 而是整个公司的产品战略. 一说战略这个词, 好象就很高大上, 其实内涵也不复杂. 出来混社会做生意,最类似的就是打仗. 打仗也爱说战略, 所谓战略就是先要对未来会发生什么有个预期, 再决定该怎么做.  不能想起什么是什么, 做事要有个章法. 会制定战略的人, 不光要懂产品, 更重要的要懂商业, 懂行业, 懂市场, 也许还要懂政治, 懂经济, 懂人性. 这样的人当然难找. 就算有个别人物通常都会自己单干, 所以非常稀缺, 梦醒先生脑子想的至少有三成是这类.  我没提技术, 这个层面的人不需要懂技术. 他们需要做的事情最关键的是选战场. 在部队里面, 可类比的是司令, 不是总司令,也是军团司令, 要掌握一个军团.
其次是大型产品经理, 也就是具体掌控一款产品的人, 这个层面的人要懂商业模式, 懂一些技术, 做商业客户的要懂行业,做消费用户的要懂产品体验 . 做事情需要知己知彼, 要知道别人靠什么赚线, 自己能靠什么赚钱, 能够最大化自家的优势. 同时又能一边理解用户的需求,一边理解技术的边界和成本. 能够在两者之间把握一个平衡点. 帮助公司挣钱. 要做到这个层次也不容易, 梦醒先生脑子里有七成估计是这一类. 类比部队里面的一个独立作战单位, 师团级.
最后是中,小型产品经理. 也就是一般意义上的产品经理.  通常需要同理心, 能够充分理解客户和用户, 还需要耐心和细心, 能够精益求精, 把各种细节打磨好. 这样的人其实做到顶级也不容易, 部队里面的营连级.
这样划分有点粗糙, 不过大致是按照角色和作用不同来划分的. 不同层次看重的素质也不一样. 如果想跨级, 需要转换思维方式, 通常这个很难.
有了划分, 就好说事了. 回到AI时代, 要做好一个巨型产品经理.  需要对AI的未来有个明确预期, 之前就提过对创业的人来说, 应当先toB, 后toC, 背后的逻辑是新技术刚出现时候的成本比较高, B端比较能出价. 同时我也比较同意梦醒先生的提法, 因为要ToB, AI是要结合在行业里, 需要有对行业的理解, 做进去, 才可以最终赚钱. 这就是一个选战场的逻辑.
尤其对于创业公司,选战场还得考虑竞争对手. 比如BAT, 行业大佬万一来插一脚怎么办? 这里有个一般的思路, 也是制胜战略.  大佬们人多势众, 平原大兵团作战肯定没有什么胜算, 但是可以把他们拉到山谷里,地形狭小的地方来打. 让他的部队无法展开. 人再多, 冲不上来也没有用.
对于大型产品经理, 主要是靠经验, 最好做过技术, 又懂体验, 又懂管理. 在别人选好的战场上冲锋陷阵. 最主要的是要理解两点, 一个是对时机的把握, 知道什么是关键时刻, 养兵千日,用兵一时, 关键时刻要赌. 一个是对力量的把握, 需要知道集中自己的精锐力量突破敌人的薄弱之处. 什么? 说的都是打仗, 这对做产品有什么帮助? 你自己慢慢理解.
对与中小型产品经理, 能学能参考的就太多了, 这里就说一点:  注意不要关起门来自己修炼, 平时多参加行业聚会, 多跟同行交流学习.
有感而发, 一时能想起来的就这些. 就写到这里吧!
曾子曰:“吾日三省吾身——为人谋而不忠乎?与朋友交而不信乎?传不习乎?”
做产品经理也要每天三省吾产品:
  • 产品用户会越来越多吗?
  • 用户需要的重点被抓住了, 被最恰当的满足了吗?
  • 我已经充分利用一切可能力量了吗?