星星之火,可以燎原

今天是旧历三月初三。三月里草长莺飞,本该春光明媚。 夫子与弟子谈论人生志向,最同意的就是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,风乎舞雩,咏而归”。能在三月里换上新衣服,郊游踏青,吃着火锅唱着歌,再下河洗个冷水澡,是多么自在的生活啊。 然而雾霾笼罩京城,抹杀此等念想。 只有打开净化器,坐在电脑前,用文字构筑想象世界。这次就乱弹几句创业。

创业如同立国。 历史上有两种立国, 一种是美国, 一种是中国。

美国的立国, 基本等同于开拓处女地。欧洲的旧势力随然也来掺合, 毕竟不是重点,倒完茶叶,再打响莱克星顿的枪声之后的创业史称不上特别艰难。 大西洋的距离浇灭了大英帝国的怒火,也消除了旧势力全力投入战争的欲望。 剩下的事情就是和不能成为对手的土著印第安人放对。 几乎等同于开拓处女地。

法国人托克维尔在考察过美国之后,写下了论美国的民主。对美国的制度表示了高度的赞赏, 认为无限接近他自己的理想社会, 这就是没有旧势力阻挡下开垦处女地的收益。 作为对照, 托克维尔讨论法国大革命的另一本书,前年曾经被国推的,旧制度与大革命就指出: 革命所破坏的一切(旧制度),都会在革命之后得到某种形式的恢复。历史是有很大惯性的 ,想变革并不容易。中国的立国是朝代的更替, 更象是法国。整个立国过程, 只能建立在与旧势力抗争的基础上。

所以创业有两种创业, 一种是开垦处女地, 从头开始建立规则。 比如互联网, 移动互联网, 实质上是构建了全新的互联互通的网络虚拟世界, 相对就轻松和容易。 最接近互联网的旧势力, 不过是笨拙的传统软硬件厂商和移动运营商。 因为虚拟世界与传统商业玩法超过一个大西洋的距离,这些旧势力会被 开垦处女地的公司轻松击败。又因为早期拓展空间比争夺空间更容易,创业公司也可以和谐共进。 这样的机会以后还有, 然而毕竟不多。需要生逢其时,不能人为选择。

另外一种, 就是日常创业面临的情况: 以技术为驱动力, 用新势力来取代旧势力。 在整个创业过程中, 面临的是于各种旧势力反扑, 不同路线新势力之间的纠缠。 艰难困苦,九死一生都是如此。

我党创业成功,获取全面胜利最终立国的历史, 也许可以作为借鉴。从一开始, 我党就是一个代表先进技术方向的党。 从北方引进的全套技术和成功经营案例, 让创业之初就与遍地的土匪革命不同。 在整个创业过程中, 这个先进技术总部都有不断的干预, 从初期的扶持,到中期的错误引导, 直到最后扎根于社会底层, 深知国情,懂市场,懂销售, 又能在理解新技术的基础上结合本土市场推出新民主主义土地革命等系列化产品的杰出产品经理掌控局面以后,终于全面占领了市场,直到今天。

回顾创业的关键节点, 有几次非常重要的转折, 最早的一次成功转折就是通过市场调研,理解认清市场现状, 从盲目乐观情绪指导下的城市暴动,转变思想到去农村建立革命根据地。

从小学习的中国革命史告诉我们, 在左倾盲动主义指引下, 南昌起义,广州起义等先后失败了。 而秋收起义, 百色起义等因为伟人指导的原因, 获得了成功。然而真实的历史并不是这样。

虽然伟大领袖调研市场后写出了中国社会各阶级分析这样的名作。 在之后的具体实践初期, 领袖仍然高估了自己的实力。 党史上在这一节语焉不详, 把秋收起义初期夺取长沙的错误路线推给了左倾的中央和湖南省委。事实上,在当时的时代背景下,中央的纸上谈兵军事家策划了全国各地的一系列起义。 秋收起义并无特别,只是其中一支。初期大家盲目乐观,以为一竖大旗,湖南各地就群起响应,然后就可以摧枯拉朽的夺取长沙。 然而很快就碰到了硬钉子, 可以说,风起云涌,几天功夫就不见了。剩下已经汇聚的主力大部队,在稀里糊涂的一个月后, 领袖才琢磨出了上井冈山的产品路线。

革命史上根据地路线和伟大的游击战争战术, 也并不是看上去那么美, 井冈山旧势力薄弱, 是因为实在是贫瘠, 本来就养活不了多少人。游击战更不能有效整合社会,获取资源,能够支持的力量只能少而精。 在收编了当地的土匪之后队伍就过大了,实际整编时裁剪了很多人, 比如有800多农军被劝退返乡。这些人在回乡时几乎一个不漏全遭杀害。

就在这种艰难困苦的时刻, 领袖写下了,星星之火,可以燎原的不朽名篇。分析形式, 批判了各种思潮,指出不能躲在山上, 要建立武装割据的路线。因为当时朱毛会师,整合了大部队之后, 井冈山上再也住不下这么多人,主力必须下山, 夺取赣南等相对富饶的地区。 扩大势力。

革命的火种传接下去, 尤其是扩张时, 一定要在旧势力在各自争斗,军阀混战的空窗期。 因为旧势力的主要目标不在这里。才有扩展的余地。 等到旧势力整合成功, 凯申调集主力开始第五次围剿时。 也许不管产品经理有没有提出正确产品路线,长征仍然是历史的宿命。

因为毕竟代表着前进的方向,革命的火种只要不断绝,就还有燎原的一天。  旧势力没有笑多久, 就来了日本人。(以下略去5千字)  获取了最后的胜利!

(全文完)

 

 

从表示到分布-有关深度学习记忆和效率的思考

三月是春天, 然而两会以后,北京的春天没有一个蓝天。 这一个星期都不见春日暖阳,最近两天是接连不断的冷雨。雨一直下,浇不灭人工智能大发展的火焰。因为当前全球经济滞涨,技术进步据说解决这个问题唯一救命稻草(还有战争)。 而眼前能看到的技术进步, 以第四次技术革命(人工智能)为甚 。之前的新能源和生物基因都被玩坏了。还能怎么样呢?深度学习作为这一波人工智能大潮的核心驱动力量, 已经被炒作的热的不能再热了。本文也在这个热点里继续掺和一下,来谈谈作者自己最近的思考。

成为热点的好处之一是资本聚集。资本就是钱, 金钱能带来的是眼球,因为媒体的呐喊助威, 不管你愿不愿意, 大家多多少少都知道了深度学习,是所谓很多很多层的神经网络, 知道了深度学习能下围棋赢世界冠军, 知道卷积神经网络识别图像能过人, 还知道这后面是凋参技能。

一种被更广泛宣传的观点是深度神经网络是个黑箱,首先要大规模收集数据, 然后开动大规模计算,再雇几个会凋参的博士, 网络就出来了。 所以要比拼深度学习哪家强,变成了那家数据强, 系统效率高,博士名声大。 这三项关键技里, 系统很复杂, 属于商业机密,一般不太好比较。雇博士可是手到擒来,于是博士们水涨船高。相关专业的刚毕业博士据在国内已经开到了百万年薪。而据(传)说领军人物的年薪则动辄是八位数字。是否真能值回票价,一时半会儿还看不出来。但是要玩尾巴摇狗(请自行搜索), 那是值得不能再值了。

再有就是看谁数据多,数据就是商业价值。算算数是投资人的核心技, 所以看数据收集了多少年,多少TB,有无专有的数据来源,  决定了公司就能值多少钱。

但是按照作者观点,真正推动深度神经网络或者人工智能的不断进步, 不能看有多少资金投入, 而要看有多少研究人员的深入思考。思想的深度决定事物的高度。 这是光注意短视的金钱涌动所永远不能触及的。

最近一段时间有关深度神经网络的研究工作, 最让人赞赏的还是deepmind。 从对创办人的访谈可知, deepmind一开始就志存高远, 一直想做类人智能,因此并不忙于凋参变现,常常对深度神经网络往往有独到的理解。比如最近就有一篇谈网络学习如何拥有记忆的话题。

有关学习和记忆, 从去年开始写文以来已经反复提过多次。总结之前的理解, 记忆并不是存储,而是一种计算, 是和学习过程紧密连接起来的,更关键的,记忆是一个动态和静态结合的过程。人都是边学边记得, 学会了,就记住了。

而当前神经网络学习和应用的过程是分开的, 一批数据进去, 网络学好,就拿去应用了。 应用的时候是固定的网络,当然也不存在学和忘。 而训练的过程,更是反其道而行之,所谓transfer learning迁移学习, 拿训练好的一个网络,给一个新的任务, 可以通过凋参很快适应那个新任务,之前的当然就忘掉了。

而Deepmind这篇文章,就试图解决这个所谓遗忘的问题。 他们通过找到深度学习网络对之前任务的最重要的部分,包括对应的连接结构和部分关键参数。在学新任务的时候有意识的保留这一部分,可以做到在学会新任务的同时, 并不丢弃做旧任务的能力。也就是所谓学会了不忘, 这样可以说网络就有了记忆。

网络有了记忆可以让人浮想联翩。 因为在现实应用中, 网络并不总是100%好使,总会碰到一些出错的例子。 这个时候就需要对网络做调整。而这个调整要做到结识新朋友,不忘老朋友。那么Deepmind这篇文章方法似乎就可以借鉴。

然而事物的发展通常不是水到渠成。这里面最大的问题,是这样的出错的例子, 实在太少 。众所周知,深度网络学习严重依赖大量的数据。如果只有几个样本就想学会,那就是大写的不可以! 怎么办, 一种思路是利用对坑式网络, GAN, 我用生成网络去生成一大堆近似样本呗。 这样可以吗? 有没有更直接的方法能让网络在小样本上高效率学习?

要回答这个问题,必须要打开深度网络的黑箱。其实deepmind有关网络记忆的那篇已经在试图在拆分黑箱了,需要把网络中重要的部分挑出来。 而打开黑箱,首先要理解深度学习网络到底是在做什么?所谓看问题的角度, 和可能影响了最终的成败。

传统的说法,深度学习网络,尤其是CNN, 学习的是一种从输入到输出的映射。把深度理解为一种函数拟合。 而多层网络, 因为引入了非线性, 不管多么复杂的函数映射,都可以拟合出来。 这在理论上是没有问题上, 然而在现实中这么玩,因为碰到非线性数学工具就不好使。 一下就玩不动了。没有数学理论指明方向,只好出动凋参大军,搞水漫金山或者瞎猫碰上死耗子战术。

可瞎猫总能逮到耗子, 这就不得不让人怀疑哪里出了问题。我们说,可能是思考问题的角度出了问题, 不能用映射来理解问题,那样就玩不下去, 要用统计的角度来理解。  而对于统计来说, 一切都只是分布而已。

我们都知道,这个世界是基于统计的, 因为世界是由一些基本粒子(现在分到了夸克)组成的。 每个粒子的性质都是一模一样的, 他们的相互作用一开始也不是特别复杂,基本都可以认为是线性的, 就算不是线性, 用泰勒展开一阶近似也差不到哪里去。而粒子的结构本身又是分层的,比如基本粒子组成了原子,原子构成了分子, 分子和分子之间有各种化学反应。 到原子还只有一百个,到分子简直有无穷多, 化学更是变换莫测。 复杂性一下就出来了。 所以三生万物, 三层网络就可以生成世界。当然这都属于胡说,别较真。理解基本思路是简单构成的复杂就对了。

神经网络比世界的基本粒子更简单, 通常情况下只有两种。 一种线性的,只做组合, 一种做简单的非线性映射。 我们说线性部分提供表示能力, 非线性部分构成复杂。每一层网络节点都只是把初始分布映射为边际分布。而每一层做线性映射的神经元张成线性子空间。神经网络就是用非线性映射联结线性子空间构成的高维空间来描述输入数据的分布。 因为每一个线性子空间提供了数据分布的边际分布,每一个线性子空间都是观察输入分布的一个窗口。 线性子空间的各种结构分析方法–线性代数和矩阵分析方法都可以得到应用。

用边际分布来表示最终的联合分布,就是朱松莼老师交给我们的云上打洞理论,而神经网络的效率,要看这些洞打的好不好, 最终取决于这些边际分布的熵的某种组合。

从概率分布的角度出发, 可以利用几何方法来研究。请参见顾险峰老师看穿机器学习的黑箱系列文章。学习所谓最优传输映射问题的凸几何解释。顾老师说逼近一个概率分布比学习一个映射容易的多。而逼近一个概率分布,解空间包含无穷多映射,构成一个无穷维李群。

期待这个方向的深入思考和理解能带来更多突破。最近给自家娃买了一本德国手绘百科全书,他看的津津有味。那本书每一页是一个主题,比如房子各种不同的样本,每一种只有一张图, 比如非洲的树屋,或者爱基斯摩人的雪屋。我相信他看过这张图片,如果下次有机会亲自见得树屋和雪屋,一定能认出来。深度学习也应该或者说必须做到这一点,大家试图理解无穷维李群过程中死掉的堆积如山的脑细胞才是值得的。

三生三世十年蛙声-乱弹自动驾驶

上周有一桩大案发生。我说的大案自然不是特警半夜出击,开着直升机奔波千里,擒拿巨贼于热被窝中,对这种类型感兴趣,请看今日说法。我说的是收购大案,intel花了150多亿美元收购mobileye。 mobileye大约是500人规模的一个中型公司, 150多亿美元相当于1千多亿人民币, 人均2个小目标。很多人质疑真的值那么多吗? 是不是买贵了。 intel为什么舍得下这么大本? 要知道intel是虽然最赚钱的it公司之一, 一年净利润大约110亿(市值最高的it公司,google大约200亿, facebook不到80亿,但是增长很快),买mobileye也谈不上轻松, 这个价格相当于intel一年半挣的钱。

这场收购案一出来,就嘘声四起。有人说mobileye不值那么多, 技术没什么了不起, 大中华做adas,自动驾驶的公司, 不以千记,也有上百, 分分钟追上mobileye云云(潜台词, 买我吧,买我吧,性价比无敌)。 到底mobileye值不值那么多? 本文回答不了这个问题, 只是作者一点浅薄的愚见。 胡乱说说对自动驾驶的现状和未来的理解。

首先要澄清基本概念, 大家说的是自动驾驶, 谈的未来也是自动驾驶, 花这么大价钱买的也是自动驾驶, 实际上市面上还没有自动驾驶。 只有辅助驾驶(ADAS)。 区分自动驾驶和辅助驾驶, 实际上有非常清楚的分类, 所谓自动驾驶的6个基本层级, 文抄公搬运如下:

L0 :驾驶员完全掌控车辆,无自动化。可能仅安装了一些预警技术,如前碰撞提醒(FCW)、侧偏提醒(LKW)等等

L1 :对方向盘和减速的单一任务提供一些辅助支持;主要包括自适应巡航控制(ACC)、自动紧急制动(AEB)、道路偏移回正(LKA)等。

L2 :自动系统能够完成某些场景下方向和减速的组合驾驶任务,可以部分自动化。L2的典型场景包括,低速堵车跟车、高速路上的快速行车和驾驶员在车内的自动泊车等。

L3 :又称有条件的自动驾驶,自动系统能通过监控环境接管所有驾驶任务,但驾驶员必须准备好重新取得驾驶控制权。驾驶者仍无法进行睡觉或者深度的休息。

L4 :自动系统在某些限定道路和环境下,能够完成驾驶任务;人可以不管了, 但是需要环境配合, 比如景区, 停车场之类的环境下完全可以无人操作。L4可以做一些道路和信号的配合。

L5 :自动系统在所有条件下都能完成的所有驾驶任务。

这样就可以分割清楚了, 自动驾驶是从L3开始的, 之前的都是辅助驾驶。 而对辅助驾驶, 从L1开始, 就需要介入车辆的控制, 如果只是嘀嘀嘀叫一叫, 给个提醒, 不管怎么嚷嚷, 都是L0, 无自动化。

而现在大家见到的最多的ADAS辅助驾驶系统, 所谓后装市场上那种只要是个行车记录仪宣称都带的, 都属于L0。 既然是L0, 自然要求就低, 也可以不负责任, 厂家就随意,做行车记录仪芯片方案的厂商请几个人稍带着就做了。 效果可想而知。通常情况下, 买了行车记录仪回家的人, 碰上这种所谓的辅助驾驶的行车记录仪, 第一件事情就是把它关掉。嘀嘀嘀的实在太烦人。 所谓劣币驱逐良币, 在行车记录仪上玩辅助驾驶, 为谁辛苦为谁甜?投资人都懂! 也不能说提醒没有价值, 只是在通用市场上价值实在有限。 某些专业市场,比如大货司机喜欢疲劳驾驶的, 能嘀嘀一下还是管用的,有专门做这个的公司, 比如径为视觉(替孙师弟安利一下,  看到要请我吃饭)。

如果要说对人真正有价值, 那就需要介入驾驶动作, 从L1开始,必须和车的控制联动, 这个不管操作多简单和基本,通常只能做前装了。L1和L2 的分别是前者是单一任务, 也就更简单。 Mobileye在这个市场上占统治地位,  Mobileye带自动紧急制动(AEB)和车道偏离预警(LDW)功能的前装系统供货价为200美元左右,占领了大约90%(未核实,请指正)的全球此类市场。 做到这两个功能主要就是检测前车和车道线。听上去不难,但是如果要做到接管控制的地步, mobileye给的标杆是:在各种条件下(全天候需求, 如果天气条件实在不合适,自己也得能判断出来, 会把自己关掉)起码要四个9的准确率,99.99%。

L2 就不仅仅是单一任务了, 可以是刹车和转向的组合, 比如volvo全系几乎都配备的跟车系统, 在车速很低时, 比如高速上堵车, 就可以打开, 车辆会自动跟着前车开, 碰到弯道也能沿着车道控制方向。 Tesla的高速自动驾驶, 比这个要强一些, 大概介于L2和L3之间,速度高了也能自动跟车。 这个市场, 目前也属于mobileye统治。 volvo用的,和tesla早先用到的都是mobileye。

从L3往上就属于自动驾驶了。 在这个层级, Tesla是最冒进的, 其实这个层级作为自动驾驶的过渡是很麻烦的。 不能完全指望自动驾驶, 但是又可以部分有效, 人可以适度走神,这个度不好把握。一旦自动驾驶认错了, 人通常是反映不过来的。 Tesla的几起中外车祸,都跟这个有关。 不知道Tesla的内部认定标准, 我个人理解是冒进了。 做新事物必须要小心又小心。 玩过头了, 就会象Magicleap一样变成骗子公司, 而且这个打击甚至会扩大到全行业。

反过来说, mobileye一直在稳扎稳打, mobileye的cto, Amnon Shashua, 在2016年cvpr上有一个公开演讲。讲自己的技术路线, 网上很容易搜到, 百度百家里有全文翻译, 非常建议大家仔细阅读。 可以看到, 要做自动驾驶, 需要, 传感器, 路(地图), 数据(算法)多方面的配合。 mobileye为此一直在做准备, 包括如何做地图表示, 如何收集数据等等。 Tesla一开始用的就是mobileye, 后来两者分手, 应当是节奏不匹配。 一个稳扎稳打的公司和一个拼速度的公司尿不到一壶里。 但是谁能笑到最后, 不太好说。

自动驾驶里L5 那种跟人一样开车的,我个人理解一旦做到就肯定会比人开的更好。 但这个实在是离的很远很远。 所以能够先期做起来的, 应当是L4, 在一些特定环境, 比如物流港, 景区, 或者某些城市区域在道路上做了配合施工的。 这个一定是自动驾驶先期的用武之地。 因为车辆和路都是定制化, 甚至不一定是公共道路, 所以条条框框也小。 也不一定非要找整车厂, 主动权更多。 但是说的容易做起来难, 要做这个也不容易, 更多的是对要对特定行业需求有深入理解。 最后还要算成本收益的经济账。

L5一旦实现, 会对社会全行业有深刻的影响, 因为有了L5实际上汽车就变成了汽车人。前一阵网上有个笑话, 说自己的车,注册了滴滴账号(自动驾驶都联网),半夜出去偷偷拉活。 如果有了L5,这个就不是笑话了。 因此这个涉及到机器和人的关系, 社会伦理, 产权法律等等, 是一个可以单开的大话题。 但是为时尚早, 说这个都是空对空。

最后再谈两句技术相关。 首先是传感器, 要自动驾驶, 需要多传感器融合, 人开车, 需要两只眼和耳朵配合(自动驾驶很少提到用耳朵的, 不是做的人忽略了, 是目前的AI太傻,用不到)。其实有眼睛就够了, 人的眼睛如果类比光学传感器和镜头,那简直好到离谱, 在这么小的体积和功耗下, 做到了大范围变焦, 高分辨率, 宽动态, 自动动态范围调节等等做自动驾驶的摄像头必须要考虑的技术特性。

但是车比人大个, 车的眼睛不一定非要象人一样这么小巧, 可以多, 可以有不同的工作原理。 其中光学传感器还是必须的。 Mobileye的cto说的很明白, 要准确理解场景, 不能光有形状, 还有有纹理, 而获得纹理, 只有靠光学。 人眼通过立体视觉就可以获取形状。 但是自从马大卫(David Marr)快40年前就提出的视觉计算框架开始, 无数学者都为之付出过, 目前还是做不到光依赖两只眼的视差就能可靠提取形状。 因此需要雷达配合, 常用的雷达有两种, 毫米波雷达, 以及现在贵贵的也很大只的激光雷达(将来会便宜且小只)。其实传感器的需求不见得限于此, 声音, 热成像, 只要有用的,将来都可以用。 当然最终光学仍然是基础。

那么有这么多传感器, mobileye为什么长期还是一只眼(单镜头), 并不是人家笨, 是因为要处理传感器的那么多实时数据流, 需要高性能计算, 而计算都是要成本的。 对mobileye的任务(L1,L2),两只眼增加了很多成本, 并不增加很多性能得分。

拜摩尔定律所赐, 这个成本总是越来越低。 mobileye自己有硬件平台, 下一代eyeQ5标称传感器能接入40Gbps数据, 懂的人可以知道这个量级的数据意味这什么。

有了传感器的数据, 更重要的是算法, 说到算法, 当然不能不说深度学习。 很多人说深度学习万能, 可以黑盒子端到端, 这边传感器数据进去, 那边驾驶控制操作就可以出来。这在理论上是可行的, 但也只是在理论上。 对现在的深度学习网络来说, 臣妾做不到啊!深度学习网络是干什么的?mobileye的cto说, 啊!就是用来提取特征的。 至于后面怎么构建场景, 进行控制, 还得单玩, 不管你信不信, 反正我是信了。

技术讨论, 我不是干这行的, 只能浅尝即止。 八成属于胡说。

回到文章一开始mobileye值不值, 我说了一大堆的意思是比较值。 当然我大中华厂商不可气短, 奋起直追, 也就一年左右技术差距(某媒体语),是不是咱们也分分钟就搞个大新闻呢?我们师母已呆!

 

 

 

 

 

国家与军队-古代社会的军制变迁

最近有个电视剧大秦帝国突然就火起来了。 公号朋友圈里有各种评论文章。对这个剧的评论可谓泾渭分明,自带公知小清新属性的都是一致的攻击,左派又红又专都是力挺。也有人写文章说你们攻击的只是大秦帝国这个电视剧本身,而不是真正的大秦帝国历史。 碰巧我也在微信群里跟人就长平之战是不是坑杀了40万人有点小争论。 讨论人工智能的微信群里不能跑题说太多。 今天就在自己的地盘里多说两句, 作为一个民间历史爱好者, 这个题目又很大,说法不够严谨可能还有错误是必须的, 还请方家指正。

孙子兵法开篇就说, 兵者,国之大事,死生之地,存亡之道,不可不察也!来自生物学的研究曾经提到, 人是最为好斗的生物之一。特别是人类的争斗主要体现在团体和团体的争斗上, 从规模, 持续时间, 攻击对方的手段和策略等方面都可以说是在自然界独领风骚。说白了, 我们就是好打架, 而且因为打输了会很惨, 所以不得不打, 还得研究怎么才能打赢。

在系列文章中,我们曾经多次提过, 按照社会学或者说流行书籍人类简史的说法, 人类靠面对面交流建立起来的信任关系,或者朋友圈大致是150人的规模。 早期人类的原始部落包括尼安德特人, 人数都在这个规模上。后来人类通过自己发明的一些纯精神领域的符号来建立关系, 发展社会组织, 突破了这150人的生理限制。 这些所谓的精神符号包括, 图腾, 原始信仰, 宗教, 国家, 民族以至现代社会错综复杂的人际关系。 智人通过图腾和原始信仰组织起来, 可以多个150人群体联合行动, 就把身材更高大,也许更聪明的尼安德特人灭的渣都不剩。

这些精神符号一经发明, 人就被分隔在从属于这些符号范畴的一个个圈子里, 比如你信什么教, 是教里哪一派? 你是那国人, 那个省来的? 啊!原来是老乡, 两个陌生人就莫名的亲近。 而依赖精神符号的连接细思下来又是十分荒谬的。 一些教义上的差别甚至决定了一个国家的存废。 比如英国光荣革命, 很大程度上是克伦威尔带领的宗教狂信徒集结在国会的名义下,反对罗马教廷和教廷指定的国王-查理一世。随后英国王室复辟和所谓二次不流血的光荣革命也是在宗教的旗帜下进行。

军事也是同理, 一只军队集合起来, 如果大于150人的规模, 就要有所谓精神符号的连接来支撑。 比如是宗教的圣战士, 还是保家卫国的公民军队,还是团结在某个军事强人旗下。 军队一定要解决为何而战的问题, 才能有战斗力, 才能打仗。近现代社会,军队大致有两种:除了国家军队,主要就是雇佣兵。 雇佣兵是为钱,为财富而战。钱也是精神符号的一种。解决为什么而战,建立连接大家可以共同行动的精神符号过程, 属于政治范畴。 军队最终是政治的延伸, 这是理解军制变迁的基础。绕了一大套其实说的还是孙子兵法里开篇那几句话。

回到军事或者人类社会的历史,因为这是一个复杂系统, 复杂系统的演化呈现出混乱,突变的特性。 军事制度的演变往往看上去没有什么道理,都是突然出现的伟大人物个别英雄引导的看似个人的行为。 另一方面, 复杂系统的演化又呈现着某种周期性, 整体的制度结构在几个稳态之间轮回。 最后, 因为生存竞争的最大流原理,社会并不是原地转圈,而是向上发展的, 技术越来越先进,组织越来越复杂, 集聚的负熵也越来越多。以上几点归结起来就是事物发展螺旋上升,偶尔突变的一般演化规律。

扯了一通逻辑,建立了模型, 就可以把事实往上套了。  比如人类社会的一开始,早期原始部落是全民皆兵, 对应社会物质财富的分配也几乎是依照原始社会的平均分配。 这个时期,兵就是民,民就是兵, 一打仗就是全体出动, 战士在前, 家属随后, 打输了就大家一起完蛋, 因此战士作战都非常英勇。 中国历史的这个阶段大致是商以前, 没有太多文字记载。但是中国长期的战争对手, 那些草原上骑马的民族,大多都在这个社会发展阶段。 表现为一出动就是10万,几十万大军。 因为全族都要上阵嘛。但是中国历史上对这些草原民族斥之为野蛮人,一向看不起他们,也不肯仔细观察研究,留下来的记录不多。

西方罗马和高卢之战,因为凯撒的高卢战记,留下了相当丰富的记载。高卢人和罗马人冲突的起源,其实是高卢人因为气候变化要往更富饶的地方迁居,而这些地区因为气候适宜,已经先期有农业部落占领。 自然就发生冲突。 汉朝和匈奴打了几百年也是如此。 据凯撒记载,高卢部落达成要迁居的动议之后。会提前三年开始准备。 头两年全民动员,收集储备粮食, 买马造车。 两年准备期结束, 把所有能搬运的物资准备好, 就一把火烧掉自己的全部住处, 包括十二个城镇, 四百多个村庄, 还有所有带不走的东西, 破釜沉舟, 防止想回家的人中途退缩。然后带着够三个月吃的粮食,全民上路。

这支高卢人, 据记载一共有30万,其中9万2千人能拿起 武器作战, 几乎能出动全部人口的1/3 。面对如此庞大的军队和英勇的战士, 罗马军团数量上大大的不足, 自然无法正面作战。 凯撒先利用了诡计欺骗, 派人去谈判, 拖慢了高卢人进攻的节奏, 然后借着这个时间修筑了长19里的城墙和沟堑来堵路。 高卢人虽然人数多, 然而武器落后,特别是没有攻城的器械, 因此无法突破罗马人的防线,只好派出部队绕路。 而绕路不光行动缓慢,又给了罗马人集结军队的时间, 还需要过一条河,罗马人最后埋伏在渡口,玩了一把半渡而击。英勇作战的高卢战士无一逃走,几乎全部阵亡。 即便如此,高卢的大部队还在。 最后决定胜负的是他们带的粮食吃完了, 于是大军崩盘,四散逃走。出发了三十万,最后逃回去十万人。

罗马面对这些英勇的部落战士也不是无敌, 公元前105年在法国里昂城南, 面对大约15万日耳曼人(30万人的部落), 罗马十六个军团正面作战,一天之内全军覆没, 只有十人生还。

在原始社会部落制全民皆兵之后, 因为贫富严重分化, 社会分成了奴隶主和奴隶,奴隶主除了享受之外,还有义务作战, 这时候的军队规模就大大的缩小了, 全体人口中只有很少一部分比如构成罗马军团的公民,中国周朝的所谓国人才能构成军队。奴隶主或者贵族通过掌握先进的军事科技, 青铜器来压制没有青铜武器的野人。 当时因为青铜的数量有限, 也无法武装全民。

武王灭周之战,据说是周武王带领了八百诸侯,四万五千大军在牧野之战中战胜了纣王。 800诸侯才凑出了45000兵, 一家贡献50人, 可见那时候的军事动员能力比起部落兵大幅下降。 与此对应的, 逸周书记载, 周武王灭商,灭了99国,投降600余国, 斩首了十余万, 俘虏了三十多万人。灭了99国,就干掉了30-40万人(投降的总不能抓人家俘虏吧)。 一个所谓的国至少也得有3000-4000人。 3,4千人的部落派出50人的队伍, 这个动员率只比1%略强。

周朝一直到春秋时期都是主要靠贵族作战。春秋时的著名的战争比如退避三舍的城濮之战, 晋国的军队有兵车700乘,据后人考证当时的一乘连附属人员大约是30人, 因此当时的晋国军队大约2万人。城濮之战位列左传五战之一。随后的也是五战之一且选入中学课本里的崤之战,秦国出动的是偏师三百乘,大约1万人,最后全军覆没对秦国来说是极大的打击了。 当时的大国,所谓千乘之国, 全国的军队也就是几万人的规模。 类似的欧洲的希腊,罗马公民时期, 打仗也主要靠公民军团, 战争的规模通常不大。希腊有上万人就很了不起。罗马因为地盘大,疆域广, 需要的部队规模稍大一些,然而一共也就几十个军团, 一个满编罗马军团是4200人。罗马全国的军队总动员也就是十几万人规模。这对一个幅员辽阔的大国其实不太相称。 但是罗马能够控制如此广大的区域,主要靠船。 沿着地中海和入海河流的流域,罗马实际控制的只是水域的周边, 加上策略和武器的优势,这个军队数量已经足够保卫国家,这里就不展开了。

到了战国时期, 从魏国的武卒,到商鞅变法之后的秦国征兵制度,战争的规模一下就扩大了。当时一个国家也就几百万人口,战争规模动辄就是几十万人, 秦国对赵国, 坑杀了赵国四十万人,秦国这边是近六十万人。 秦国灭楚, 一开始派二十万人打不动,还被项燕反击。最后动员了全国之兵, 六十万人才最终成功。 可见当时的战争规模已经是几十万人。很多人说这个数字是吹牛, 这是对当时的军制不了解。贵族军队变成平民军队,征发种地的农民就是军队。 动员规摸就大大增加了。

这种农民就是兵, 兵就是农民的体制之所以出现,除了当时战争残酷, 贵族或者国人数量不够看以外, 更重要的是两个原因,一个是技术进展,出现了铁器, 铁矿的数量远比铜矿高, 可以武装更多的人。 另外一个是解决了为谁而战的问题。 国人制,公民兵,人人相对平等,大家为了保家卫国,为了荣誉而战。 商鞅变法,兵民一体, 打仗获得军功就可以分地,这样的兵为利益而战。 土地私有,可以父传子,打仗就有了更大的动力。打输了分的地的就没有啦, 也有了保家卫国的动机。为荣誉而战,和为利益而战这是驱动军队的两种方法,必居其一。为荣誉而战就要求社会尽量平等一些, 为利益而战就要求国家有钱可分。

因为要征服六国,秦兵作战一往无前, 加上严酷的纪律,批量化生产的制式武器比如弓箭, 秦军统一了中国。

然而秦朝在统一了国家之后,军功制不再起作用,国内的地分完了, 没有对外战争的战利品,不能分更多的地, 反而只有惩罚。 于是秦国变成了暴秦, 秦兵从特别能打变成了弱鸡。 秦军的两支主力, 一支去了岭南之后,带队将领看到秦国的形势,见死不救,塞绝道路,自立为王。 另外一支防守长城的队伍,先是因为带队的扶苏,蒙恬屈死, 逃散了一些, 后来剩下的也无心作战,在巨鹿投降了项羽, 最后被项羽坑杀。失去了作战目标的军队,人数再多,也只能任人宰割。

汉随秦制,汉朝先是内乱,后来一直跟长期和匈奴做战, 靠征发农民,军队也一直维持在一个较大的规模上。 汉朝有个有趣的陵邑制度。 就是每个皇帝或者的时候都要给自己修陵, 不光是修死后睡觉的地方, 每个陵的旁边都要修一座城, 然后迁全国的富户来此给皇帝守陵, 汉朝前期大家都是愿意来的, 因为首都经济发达生活好,还有授田。 后来这个制度就慢慢的执行不下去了,因为无田可授。

汉朝最盛的时代, 是汉宣帝。 与来自高中课本的印象不同, 历史上真正消除匈奴威胁的不是汉武帝, 是汉武帝的孙子汉宣帝。  汉宣帝时代,借着匈奴南北分裂的机会, 汉宣帝击破北匈奴, 招安了南匈奴, 一举消除了匈奴对汉朝的主要威胁。 当然并不是一举消灭了匈奴。 因为当时技术条件所限,种地的永远统治不了骑马的地区, 正确的做法只能是让他们自己统治自己。借受控制和约束,最好让他们信佛教,就像清朝做的那样。 汉宣帝之后匈奴虽然也惹事,还得派王昭君出塞去和亲, 但那些都是汉朝主动的行为,再也谈不上匈奴对大汉全国的威胁了。

汉宣帝时代,同时还击破了羌人,建立了西域都护府,大大拓展了统治区域。“犯强汉者,虽远必诛”这句名言就是当时的西域都护府头领陈汤说的。然而没了外敌,内部就开始腐败,各种制度都慢慢荒废了。 特别是征兵, 汉朝后期因为土地兼并, 建立在军功,授田基础上的征兵制就坚持不下去了。因为打仗成了苦差事, 光死人, 分不到地。  既然分不了地, 只能财帛动人心了。 西汉末年开始用雇佣兵。

雇佣兵为钱打仗,谁有钱跟谁, 作战意愿也不如分地的兵高, 动员能力全看国家聚财的能力。 这样东汉的兵就不如西汉的兵能打, 对外征战也从扩张变成收缩, 大地主们有地有钱, 自己也可以招自己的私兵, 也就是所谓的部曲和世兵。 这在之前的一国家的消亡文章里已经提到了。 至此之后, 军制虽然还有一次次轮回, 但是基本上国家的崩溃都是因为财政破产了。

今年是十月革命100周年, 网上应当会出现各种评论文章, 一篇有意思的文章:扬云飞:二月革命百年小记之谜一般的拉斯普京 提到, 俄国的农奴制度其实不是字面上那样, 而是一种合作社制度, 后来阴错阳差,搞了了12年一分地, 两次分地的时机,1905年, 1917年都发生过革命。 很多人都说我党的胜利也是因为土地革命,解放军解决了为谁而战的问题。

到了今天, AI时代, 虚拟现实世界的土地没有边界, 还会因为土地冲突而世界大战吗?所谓江山易改,本性难易, 这是谁也无法预期的啊。

 

To Be or Not To Be? 再谈人工智能芯片

转眼又是三月了。在一年里,三月总是和春天联系在一起。 春天里万物复苏, 发芽成长。正是思考新生事物的时机。 去年年底时, 曾经写过一篇有关人工智能芯片的文章, 那篇的文章的结论是除了语音已经看到些许应用的机会, 面向应用的其他行业可能都还得以GPU/DSP为主, 或者是借助FPGA。主要原因是算法性能不足, 而且在不断变化发展。三个月过后, 这里重新再回顾一下前文的结论, 看有没有需要修正的地方。

开宗名义, 有没有要修正的地方? 没有! 虽然语音已经看到了一些端倪, 但是要踩着dsp走过去, 还是要准确定位市场。 其他行业应用就更不用说了, 老老实实用GPU/DSP吧。 虽然业内在蠢蠢欲动, 可能今年会看到一堆所谓面向深度学习的芯片发布, 那估计也只是发布…而已。

这里有个大背景, 从去年开始,就有各种媒体都在放风, 中国进口的物资里, 芯片已经成了超过能源的最大一头。 对于中国这样的大国, 命根子捏在别人手里怎麼可以。 所以一定要自己造, 不造不舒服斯基。国家自然要在芯片领域大力投入。 中国的国家投入历来有个特点, 就是中央指挥棒一指, 就是方向就是政治正确。 各个地方诸侯都要玩了命的搞小猪赛跑。 中央花钱的人通常是很懂得, 钱也能花在点子上, (为了不被乱棍打死,必须这么写)。然而小猪们就不见得, 通常是人傻钱多速来, 于是这个行业开始泥沙俱下,无数牛鬼蛇神一言不合就要做芯片。 连做LED封装的也都成了先进IC产业。 傻钱不要怎么可以?

还真就是不可以。 虽然未来的事情谁也说不清。 但是动机很重要, 抱着做事的动机出发, 才有做成事的可能。 抱着有傻钱先弄到手的动机出发, 做事的思路就会错位,事情当然也不大可能做成。 最后基本都是一地鸡毛, 或者跑路, 或者吃官司的下场。 这里不是放话吓唬人,一言决生死, 没有那个本事, 只是通过观察历史,感受到这个技术和商业发展的复杂系统在不断重复自己…

那么如果非要做芯片, 又该是怎样一个思路呢? 我们可以看看国产做芯片的成功例子, 比如某思。 某思现在已经是当仁不让的国产芯片龙头企业。 某思虽然是背靠大树好成凉, 但在一些行业市场上也十分的给力。 比如安防行业, 某思借助国内安防市场发展的东风, 借着几个安防企业发展成了世界上最大的安防公司的机会, 也熬出了头,几个拳头产品都做到了有量能赚钱。 给个枣吃再打一棍子, 某思的问题是自己仍然不能引领方向, 做产品靠对标, 早期对标某霸,去年某霸流年不太利。 某达是当红炸子鸡, 又开始对标某达。 哎, 为什么靠对标, 是因为不掌握从预研技术到理解用户和市场两者结合定义产品的正确姿势啊。只有掌握了这一套, 才可以不靠对标,自己领路。 这句话说起来容易, 做起来难。

要想引领潮流。首先新技术要有积淀, 至少要有超前研究一代, 研发一代, 应用一代的结构。 可能有些人不同意, 那里需要搞那么花哨, 超前研究那种事情是要开研究院, 我就不搞, 你看苹果不就没有研究院吗?这个话题涉及到企业如何搞研究, 三言两语说不清楚。 总之搞研究基本属于试错, 而且很多时候试的是技术和应用领域的结合。 因此要超前一代。 研发一代, 应用一代, 车轱辘话不展开。

而对应用领域的结合, 需要对市场整体的结构, 产业链各个企业的态势和互动关系, 最终用户的动机和需求有全面的把握和理解。 如果搞新产品是开车, 需要同时做好两件事:技术是发动机驱动轮子, 理解用户和市场是方向盘。 如果没有发动机驱动轮子, 知道了方向也跑不起来。 如果没有知道怎么打方向盘的, 轮子转的再快也是随机游走, 只在一个车范围里绕圈子,同样跑不远。 要做好这些事情, 必须找对人,多投入,更重要的领导人可以转变思维, 在脑子里建立新事物发展的演化模型, 才可以把握时机。 都非一时之功。

以上说法全是务虚, 属于闲聊吹水, 我们找个实际的例子评估一下。 比如某米最近刚刚推出一款某果的芯片和用这个芯片早出的某c手机。 有关这个芯片的具体细节, 建议去看看知乎问答, 某米水军的考证(https://www.zhihu.com/question/56045568/answer/149060579) 。 虽然是一篇水军文,但里面有大量的比较, 可以看出某米做这款产品的思路。 还是靠…对标。

稍等,也不全是对标, 做soc可以理解为搭积木, 选定工艺制程, 定义性能指标(这一步最关键,用综合考虑技术和市场)然后找到对应IP, 再干一点连接的粗活。剩下就是各种调优。 然后就可以流片。 说起来好像容易, 有什么难的。 难在做系统的经验上。 各种know how 其实不容易。 行内有个笑话, 说某司对另外某公说我可以无偿把IC的核心知识产权给你, 大约1000万行代码, 某公忙说不了,不了, 我赶脚要弄清你这1000万行代码也得花100亿。 要不要100亿姑且不论, 总之系统规模一上去就麻烦。

依照水军的说法, 对某米的这款芯片的思路可以做如下总结:定义性能指标上是保守的(面向中端,最成熟的28nm制程在手机芯片上是落后了), 产品的规格是恰到好处的(可以流畅的打王者荣耀),有些小地方是突出的(比如什么高级货背光控制), 有些大地方是不知道能不能经得起考验的(比如isp)。

某米是有心杀贼, 然而各方面积淀欠缺。 有人说某米做芯片的某果团队是借船出海, 某芯的团队一开始合作后来被连锅端了,搞的某芯一肚子怨气。 这也是缺乏积淀导致的结果。

但从某果这个略显奇怪的名字也可以做一番推测。 某果为啥叫某果, 有人说某米起名字都是植物系, 比如软件界面叫某柚, 硬件芯片叫某果正常。 我觉得不正常, 植物系的太多了, 为毛要选个满是疙瘩又脏又硬的某果呢。 在人的大脑里有个某果体, 某果八成就是这么来的。 用大脑里的植物系称呼来命名植物系芯片当然是最恰当的。而起名字这么用心, 说明这是长跑不是短跑, 来日方长。

小米说完,再回到人工智能芯片。 同样的问题, 要做好这个, 要同时掌握技术和市场用户。 问自己两个问题, 有专有技术吗?理解市场和用户吗? 如果还有犹豫和怀疑那还是再等等。留得青山在,不怕没柴烧。别干人面桃花的事情。

AI相关的算法日新月异, 比如周志华老师最新的deep forest, 如果在大数据集上验证性能也极好, 那围绕BP训练过程做优化硬件的还不哭死。

文章写到这里已经又臭又长了, 好像啥也没说。 其实人生也类似, 大多经历, 都是又臭又长且没有结果的啊。