双手交互的前世今生,以及对未来交互的展望

这两天朋友圈的一篇文章在刷屏, 题目叫微软发布了一款设计师神器。 该神器除了酷炫吊炸天的设计(其实长的好像lenovo3年前的某个获奖机器啊),更吸引人是附带了一个创新硬件和围绕这个硬件设计的新形态交互方式: 双手配合。 听说设计师看到了都大丈夫。

一看这种交互方式,就想到了一个人:用户体验和交互设计界的大牛Bill Buxton。大家都熟悉苹果重新定义智能手机的故事。苹果用电容屏多点触摸革新了交互方式, 把黑莓诺基亚等一票在键盘机时代不可撼动的名厂送入了地狱。而多点触摸最早的概念提出和原型就是Bill Buxton等一干人在多伦多大学二十几年前做的工作。一方面要赞Bill Buxton先生的远见卓识,另一方面也可以看出一个真正创新的交互方式从原型到成熟的技术要多久。而且需要乔布斯这样的天才人物在背后强力推动。 Bill Buxton先生在双手协作方面也做了二十多年的工作。 微软刚刚推出的产品, 肯定是延续了他的思想。 本文在此讲一讲双手协作这种交互方式的来龙去脉,并借这个话题简单讨论一下未来交互的走向。 有关双手交互的主要内容都来自于Bill Buxton先生的个人网站http://billbuxton.com/。 该网址强烈建议人机交互和设计相关的从业人员收藏。

Bill Buxton先生或者说大师有多牛,可以找时间单独写一篇文章。简单的说, 作为人机交互和设计界的元老之一, 他做了很多开创性的工作。 之前提到的改变世界的多点触摸就是其中之一。 Bill Buxton 同时对双手交互感兴趣。 人是长着两只手的, 我们平时做事, 都是用两只手在配合。 从历史角度来看, 键盘命令行时代是两只手操作, 到图形界面鼠标时代, 忽然只用一只手来点点点了。 什么?你用一只手敲键盘,一直手握鼠标打游戏,这位同学请你出去!总之两只手配合起来才有高效率。 那么在触摸界面两只手应当怎么用才能效率更高呢? 什么?你用一只手握手机,另外一只手点击。 这位同学也请你出去!

天下没有完美的事情, 就交互设计来说, 需要针对一个特定场景来把握各方面因素的平衡。比如要追求交互效率的最大化,通常就需要一个比较大的交互空间, 这样是以不能移动为代价的。 Bill Butxon谈到的双手交互就是针对效率的提升来设计的, 我们看到的是大屏, 专注等属性。

对效率的追求还可能会让交互变的很复杂, 对普通人来说就成了门槛。而学会这种交互本身就是一种工作技能, 可以用来挣钱。 比如设计师会在找工作的简历里面列出会用photoshop,flash等等。Bill Buxton曾经在自己的讲座里谈到过是design for fun(大众) 还是design for work(efficiency,小众)的问题。 微软的这个新品放出的视频太少, 还不能看出有没有追求效率的极致? 是不是可以作为一个设计师的创新生产工具?当然曲高和寡, design for work的市场要小很多, 就算卖的很贵, 也不能挣大钱。

回到双手交互,重复一下观点, 双手并不一定比单手好,各有适用场合。 双手交互主要是为了提升效率。做一个工作, 想要提升什么, 先要能够测量什么。 这是一般道理。否则就没办法掌握方向,科学研究会变成瞎猫撞到死耗子。 而面向当前的图形界面, 学界评估效率的方式是fitts law 和steering law, 有时间可以去看看翟树民博士的文章,这里就不展开了。 对于双手操作, 问题比较复杂, 不能简单的沿用fitts law, 因为fitts law是只针对鼠标这样点击设备只有一个点的。 双手的时候起码有两个点。

为了分清楚效率问题, 需要进一步把具体操作分成离散类型的和连续类型的。 离散是指敲键盘这样的动作, 都是一下一下的, 而连续是指鼠标光标的定位或者手指的滑动。 两个手都离散最典型的就是敲键盘。 刚才出去的同学请回来, 一手键盘,一手鼠标, 就是离散加连续, 一手一个鼠标或者双手在屏幕上抓来抓去就是连续加连续。 各有不同。 再进一步追究, 双手配合还有是不是同时在动作的问题, 敲键盘虽然看上去是两个手都在用,但实际上一个时刻只有一个输入, 打游戏就不一样, 两手会同时动作。 哎呀呀, 搞那么多,分那么细干嘛。 做研究就是这样, 一点都不酷, 好枯燥。。。

只有分的够细,把握每一个细节,各种差别之处都搞清楚才能给效率一个清晰的指标。 因为还有数学公式, 具体内容这里就略过了。只谈谈设计思路吧, 如果让你设计一个双手的交互操作, 你会怎么做?请停下来思考片刻。

当然,设计不能凭空想象,需要观察。 那么人平时干活的时候, 双手是怎么配合的? 一个例子是写字。 很多人以为自己写字是一个手的事, 实际上不是。 通常写字是两个手在同时动作, 一个手写字, 另外一个手在移动本子, 这样写的那个手可以一直保持比较顺畅的姿态。 如果把本子的移动去掉, 光靠一只手写出来的东西长的象这样:

writescript

图中左边写的字,如果拿掉本子的移动,就会变成右边那样。写字代表了一大类双手操作的配合方式, 一只手用来做辅助, 另外一只手输入。adobe曾经有一个硬件,adobe尺子, 就是这种思路。可以被称为right to left hand reference。

adobe-pen-ruler-600x316

从另外一个角度看, 一个手的动作大, 一个手的动作细微, 所以也可以称为Macro -micro 配合。

在上述方式下, 双手的配合是各自任务不同, 但还是有一些动作,两只手的角色并无显著差异的, 比如这样:

writescript2

其实敲键盘,弹钢琴两个手的动作也都差不多。 具体到设计, 既可以区分两个手的任务, 又可以两个手不区分。 双手配合。 比如一手抓住一个虚拟物体, 另外一个手来改变属性,做缩放,改变颜色之类的操作。 还可以让一手指定某个操作, 定义另外一手的动作的属性。 比如按住画折线的图标, 你画出来的就是直线段。 等等等等。

Bill Buxton先生研究了很多笔和touch配合的操作。比如这样的, 用手选一个虚拟工具可以沿边画线把照片裁开

pen1

比如可以用一只手touch,选择另外一只手写字的笔迹。

pen2

笔的输入只是一个点,一个二维的坐标。微软这次搞了个图章和touch配合。 可输入的包括图章的位置和朝向。 多了一个朝向作为连续输入的维度, 可以更炫酷。 最终是不是能大幅提升效率, 要考设计师的功力, 也就是设计师对目标任务和交互本身的理解,还待稍后观察。

一个面向效率提升的设计, 其价值上限是支持任务本身的价值。微软的office是面向大众的, 而设计师是个小众群体。  面向设计师也终究是个小众产品,做到极致都不会有太多受众和影响。何况还有曲高和寡的道理。 一时新鲜过后,终会归于平静。

双手操作是面向效率工作提升的一种,只能适用于非移动的场合。在手机和各类移动设备作为趋势和方向不可阻挡的时代,虽然效率工作或者说pc 有其自留地,在一定期限内不会消失(因为摩尔定律还在起作用,当手机的计算也过剩了的时候, 还是会被手机芯+pc壳子取代), 但也不会再增长。

每一次交互的变化,都会引入新的软硬件平台, 创造新的机会。 旧时代的恐龙公司会死, 引领创新的公司会活。 这一代驱动创新的公司, 很可能会成为下一代交互革命中的恐龙。

因为pc的革命, DEC之流早已消失。 在移动互联时代, 当年的弄潮儿,现在的pc巨头们都正在痛苦。 微软的恐惧也在于pc的消亡,长期来看,windows将不再是通杀的利器和竞争优势。 然而潮流趋势不可逆行。

手机作为移动平台, 也有消亡的时候, 下一代的平台是AI+AR。AA时代, 交互会是能够理解人意图的真正自然交互, 而语音界面和个人智能助手是第一站。

从时代变迁中生存的唯一特例是IBM, 只有会革自己的命,才能活下去。IBM已经冲到了AI的最前线。 移动互联时代的弄潮儿 Facebook, Google都在拼了命的做AI, 微软,Intel 自然也不甘落后。 那么未来是谁的? 也许是中国人的:-P.

 

 

 

 

 

 

 

大脑是如何工作的?兼谈如何做出类人智能。

记得读书的时候,我的老师曾经提到过当年他为什么选择计算机视觉和人工智能这个方向。 他说,他曾经参加过人工智能之父明斯基的讲座。 老先生上来就问了一个问题: How human brain works? 做AI的人, 其实终极目标一直是如何做出像人一样聪明的机器,这是一个历史使命, 要代代穿传。 创始人时代做不出, 就传给我的老师那一代, 之后再传给我们。 我写这篇文章的目的是想说, 也许或许我们不用再往下传了, 我们这一代就能解掉这个问题。 以下是详解。

这篇文章要不要写, 我其实犹豫了很长时间, 脑子里有很多想法, 模模糊糊有些答案,但是并不确切。 写文章应当能经得起历史考验。 万一错了, 被打脸会很丢人。想来想去还是把不成熟的想法写下来, 读者君们一起思想碰撞, 会进步的更快, 想的更明白。

先说为什么我觉得我们这一代能解决掉AI的问题,并不是我们比前辈们聪明, 归根结底是计算能力,我们赶上了好时候。 大脑的计算能力是多少, 有各种估测数字。 什么时候计算机的计算能力超过大脑, 也有各种估测。 其实这些数字都是胡扯, 你连大脑是怎么计算的都还没搞清楚的, 怎么评估计算能力? 那种算算神经细胞个数,然后把神经细胞当作一个计算单元来统计的都是伪科学。但是为什么我还是敢说我们这一代能遇上计算机计算能力超过大脑? 因为有摩尔定律, 就算估计不准,差了2个数量级, 也不过是十年功夫的事情。 基本上, 我的个人预测(胡猜),与人体同等重量的计算机计算能力超过人脑, 大约在2018-2019年。 这里耍了个流氓, 没有拿大脑的重量和计算机比, 大脑和人体的重量差了几十倍, 对摩尔率来不过不到十年功夫。

计算能力是物质基础, 硬约束, 没有计算能力都是空想。 有了计算能力, 可以谈算法了, 也就是软件。 大脑是怎么工作的? 这里面关键是工作的原理, 就像造飞机一样, 研究了鸟以后, 科学家发现了伯努利原理, 造出了跟鸟的飞行方式不一样的飞机。 AI的伯努利原理是什么?

要想从功能上模仿大脑,回避不开的问题是如何理解人类智能。 大脑的功能又多又复杂, 一眼望不到边, 从何入手。 怎么建立理论框架。 解题的思路在心理学, 心理学一直是研究人的。 心理学三大门派, 精神分析,行为主义, 人本主义都对人是什么有自己的理解和研究方法。 自心理学之父冯特之后心理学已经研究人有快两百多年了。其中以佛洛依德的提出的, 本我, 自我, 超我的模型最流行。 本我是动物性, 是生存本能, 是条件反射层面的东西。 自我是逻辑, 是理性判断和分析, 超我是社会性, 是道德和思想。 这个思路, 正可以用来指导AI, 目前AI做到的东西, 大致也可以这样分。 以下分开来说:

本我:语音,视觉都是自我层面的东西,对应于潜意识。 人类生存的基本技能, 我们还没学会,但是可以 一个一个技能做, 慢慢来。深度神经网络发明之后,大大提高了大家做出这个层面东西的信心。  究其原因, 本我是对外部世界的基本理解和直接反馈, 解决的问题是如何从外部世界抽出概念这个关键的东西。 并做出相应的直接反馈,那么我们要学习一个从外部表象, 比如语音, 图像, 到内部概念的映射关系。 深度神经网络学这个映射大大的有效。 为什么会这样?

MIT的几个物理学家最近有个理论给出了解释。 他们说自然世界是建立在简单的物理规律之上的(这些规律甚至大部分都是线性的)。不同的线性规律相互作用,产生了非线性,比如双线性插值就是个简单的例子。 有了非线性, 加上耗散结构自组织,最后就能形成了五彩缤纷的现实世界。所以归根接地,世界就是一个大的分层网络产生的, 用分层网络来理解,做这个逆向过程,当然有效。 这样同样可以解释为什么大脑也这么厉害, 大脑的分层神经元结构不也是干这个的?

自我: 有了映射关系, 我们可以从外部世界走到内心世界了, 但是本我的内心世界很简单, 就是一些状态,和对应的简单逻辑, 比如分了多少类, 每一类该怎么做。 AI一开始做的玩具世界,就是搞搞类似的逻辑, 所以用LISP语言描述这个就可以。 当年计算能力不够, 玩不了外部世界到内部世界的映射, 前辈们只好玩玩具模型, 积木世界,也真是不容易。 也愈加佩服他们的聪明才智。

但是对应人的自我, 这些简单的状态和逻辑是远远不够的, 这里面有几个关键的东西要弄明白, 什么是知识? 什么是通用知识? 什么是记忆?最最重要的是,什么是自我意识?

先说知识, 搞知识表示的人研究这个很久很久了, 语义网络, 概念层次网络, 还有个语义互联网的RDF标准, 在他们看来,知识是一种概念直接的联系, 语义联系,确定性关系。 比如RDF标准,核心是一个三元组, 从一个概念,到另外一个概念,加上中间的链接关系, 就是知识。 RDF折腾了十几年了, 仍然只有有限的应用。 为什么不成功?各种解释原因都有, 在我看来, 是走错了路。 知识是确定性的关系吗?大错特错, 知识从来就是不确定的, 动态变化的, 所以要表示知识,不能用确定性网络, 要用概率网络, 也就是贝叶斯网络。 这里就不展开了。

有了知识,就可以谈谈通用知识。 所谓通用智能, 大家说计算机笨,AI笨,一般指责最多的就是这个。 计算机就是工具嘛,智能干一些特定的事情,而且还做不好。 这种指责其实相当没有道理, 刚开始学说话的小孩,学一个词都不容易, 你问他为什么不会作诗? 从知识到通用知识,是一个慢慢积累的过程, 这里面有没有过不去的门槛,量变引起质变。 仅此而已。

再说什么是记忆? 其实人的记忆很复杂,有短期记忆, 有长期记忆, 有短期记忆到长期记忆的转化过程, 人要睡觉, 除了让身体各个器官休息以外,最重要的就是要干这个: 把一天接触到的东西整理下来,变成长期记忆。 这个过程中没有自我意识的干扰。 有的时候, 转换出了点小问题, 就会做梦, 展开说可以是另外一篇文章。 这里点到为止。 那么记忆怎么来理解,关键在动态, 在时间。 与记忆相关的都是时间,我们记住了新东西,慢慢的就忘了旧的。 要模拟这个,知识表示的贝叶斯网络每个状态都得有动态属性, 动态贝叶斯网络。哈哈, 我的博士论文就是写这个的,瞎猫碰上死耗子,小得意一下。

最后要说自我里面最关键的东西, 自我意识。这里就不谈概念了, 就说说心理学认为自我意识是怎么来的? 一言以蔽之,学出来的!自我意识是从孩童开始逐渐发展起来的概念, 小孩子刚生下来是分不清楚内外部世界的, 慢慢的才知道”我“和其他东西是不一样的。 既然大脑可以学, AI也可以学, 具体怎么学, 因为设计到高层次的东西, 在我们还没解决知识和记忆之前, 提这个有点早, 但基本上可以推测这个跟增强学习相关。

超我:有了本我和自我,其实大部分人的智能就有了,尤其是有了自我意识的东西, 必须承认它已经是一个“类人”了。超我这种文化和道德层面的东西, 在于AI个体之间如何连接,如何建立关系。 我们做出了一个AI, 两个AI, 几百上千个有自我意识的AI之后,他们之间如何组织成社会。 Startrek这个片里的想象是borg人, 所有的AI个体公用一个大脑。 是不是这样, 值得商榷。 这个很重要, 人类简史里说, 智人之所以打遍天下无敌手,就是有了精神世界,创造了共同想象物,可以大规模群体分工,一致行动,直至建立庞大复杂的社会组织。 AI会怎么样,AI如何定位,AI和人的关系如何,这个交给未来学家,哲学家,社会学家。 涉及价值观,每个人都可以有不同的想象。

文章到此就可以收尾了。 有两个小问题再补充下, 一个是创造力,一个是自由意志。这也是讨论智能时候口水最多的两个问题。 创造力从哪里来,自由意志是什么? 很多人说这个归结为量子效应,这种说法很高大上。 我的个人观点,没那么深,大脑利用的全部科学,就在十九世纪的物理学里, 用不到二十世纪的物理学。 有热噪声就够了。 能坚持看到这里,也不容易,谢谢读者君。再见!

 

聪明的秘密

从小我就被人夸聪明. 一直到现在,还有人叫一个年近不惑之人神童. 这一方面说明我小时候的聪明确实让人印象深刻, 另一方面也说明我现在没有什么大的成就, 以至于有人觉得还是小时候的称号略优.

别人夸你聪明的时候, 时不时还会感叹一句, 你为什么这么聪明啊? 既然很多人这么问, 我觉得我可能有资格来谈一谈什么是聪明这个话题. 各位看到我这么吹牛b不要生气. 因为别人一夸你, 你就骄傲, 骄傲多了就自负, 自负了就要栽跟头. 我已经栽过很多跟头, 事实深刻教育了我, 也帮您出了这口气.

那么现在回到正题, 先说一说什么是聪明人. 一般说到一个人聪明, 无外乎如下形容词,可分成三组: 脑子灵光转得快. 反应快; 记性好, 极端的有过目不忘; 想的多,想的深. 最后一条是思维习惯, 先不多说. 单就前两条, 类比计算机, 一是说主频高, 二是说内存大. 分开细讲: 

先说主频高, 观察一个人的语速基本上大致就能判断, 除非有人刻意隐藏. 一般脑子转的快的人, 说话也会比较快. 说明他的处理能力强. 处理能力强, 又集中反应在逻辑能力和算术能力上, 比如做逻辑题, 口算或者心算. 有些人就是天生比较强, 比如我, 大约四岁的时候就能心算4,5位数字的加减乘除, 我可没学过速算法, 就是在脑子里生列算式算出来. 如果这方面天赋不强怎么办, 不要着急, 可以练, 有一些方法, 比如速算法, 或者多做题, 各种各样的题都做过. 拿检索能力拼人家的计算速度, 应付一般考试足以. 当然要搞数学奥赛还是不行, 这个要认.

再说内存大. 有些人天生记性特别好, 一本书从头到尾翻一遍, 就能背出来. 三国里有个故事, 张松去给曹操献西川地图, 曹操嫌他长的丑, 不待见, 他就想报复. 看见书案上曹操刚刚写了一本兵书: 孟德新书的手稿, 就说这个书是抄来的, 曹操大怒, 说我自己写的, 你怎么说是抄的? 张松哈哈一笑, 说我以前就看过, 不信你问我, 说话间他把书已经翻了一遍, 全记下了, 曹操拿起手稿随手翻到几处问张松, 张松倒背如流. 结果曹操又急又气, 就把书给烧了. 中国历史又少了一本兵家名著.很可惜. 这是能力用错的典型, 能力越大,责任越大, 不能胡作非为, 张松也没有什么好下场. 三国演义是演义, 不是历史. 但是天生过目不忘的人是真有的, 我就见过翻过一边菜谱能全背下来的. 最近有个电视节目, 最强大脑, 很多人在上面秀自己的记忆力. 看过您也别自卑. 这里面有门道, 这个也可以练. 形象记忆法, 把要记的东西变成画, 再带点夸张出奇的引申, 就好记了. 坊间有很多培训班教这个. 但是切记, 如果你不是自带天赋, 虽然方法简单, 也不能速成, 还是要长期练习, 一万小时定理, 练出思维习惯, 不然学完没多久就忘了也没用.

说过了主频高, 内存大, 放在一起, 看出来了吗? 大脑两个半球, 一个是左脑, 一个是右脑.  其实我很不喜欢左右脑的说法, 大脑的生理结构是同样的, 功能上有分区, 但是仍然是一个整体. 一些从裂脑人(左右脑不联通的) 那里得出的结论, 只是暂时的参考,不能作为最终结论. 左右脑还是一体的, 要聪明, 左脑也要, 右脑也要, 计算,存储能力都强, 才能高效率的解决问题. 有了基本结论, 各位就可以想办法针对性的训练, 弥补自己的不足.  

 

为什么训练可以拼天赋, 拿神经网络来类比, 大脑是个计算模型, 一堆基本计算单元, 通过复杂连接成一个网络来组织. 这里面有三个关键因素, 一个是连接传递方法,一个是网络的结构, 一个是连接的强度, 对比神经网络 , 一个是激活函数,比如relu, 一个是模型的结构, 一个是模型的参数. 通常对神经网络来说, 激活函数是最先确定的, 这样算法才能开展. 然后是网络结构,要精心设计. 最后才可以通过学习来获得参数.  高级一点的方法也能学学网络结构. 最高级的方法也许能学激活函数, 不过函数空间太大,阿列夫2, 不好学, 目前看,还学不到. 总结一下,  变换方式最难学, 其次是结构, 一般学习只能学参数

那么回到天赋, 为什么有些人天赋高? 那就是结构天生好,  也许是遗传, 也许是碰巧. 天赋没有不要怕, 可以学, 但是要苦练, 先学参数, 练到一定程度才能学结构, 结构学好,就习得了技能, 一万小时定律, 刻意学习, 没有捷径. 天赋好的也别得意, 不好好用, 结构会退化, 今不如昔. 此外, 谁也逃不掉衰老. 

最后再补一句, 聪明不是智慧, 有时间换一篇文章说.

公司的基因–从支付宝改版说起

昨天上午上班的时候家里打来电话说没电了, 让我买电。之前买电都是用支付宝, 于是习惯性的打开支付宝,想找买电的入口, 之前就在一级菜单下, 结果一看界面,整个蒙圈,这还真是下狠手,改的娘亲也不敢认,反反复复找了半天,也找不到买电的入口,无奈去微信群里求救,得高人指点,用全部项下的搜索最终找到那个服务。好歹我也是it青年(中年),经常指导别人怎么使用手机电脑,今天碰上一个app更新,居然不会用了,这里面必然有问题。 上网一看, 吐槽一片。 代表性的找一篇,keso的:支付宝不折腾能死?keso文章里讲明, 支付宝虽然是胡折腾,但是有折腾的理由,因为微信的成长实在太快, 微信支付用了3年时间走完了支付宝12年的路, 玛丽米克的互联网报告里微信的每月用户交易次数已经是支付宝的4倍多。支付宝一直在被动挨打,全面防守,还要问问能不能守得住。这样下去,会死吗?

还真就是可能死。 于是引发了这一篇小文。 容我慢慢道来。就说BAT,其实大家隐隐约约能够感觉到,这三巨头虽然都很牛b,但也不是为所欲为。 B家做搜索, A家做商业交易, T家做社交都是自己的基本盘。 一旦想往对方的领域插手,就会落得个惨淡收场的下场。 商业领域, 百度做过有啊,腾讯先收后卖易迅,都做不起来,腾讯认清形式,榜上京东了,百度不死心,又弄了个Mall, 还在o2o。社交领域, A家的旺信逼着员工做推广,让全国人民看了一场闹剧。 搜索就更不用说了,百度一家独大,腾讯的soso后来给了搜狗,也是不了了之。 为什么?

以下内容属于神棍乱点评, 信则有,不信则无。 前几年职场上颇为流行了一阵所谓九种人格分析, 据说大公司的HR会用这个来规划预测人的职业发展路线。 所谓九种人格,高大上一点叫性格形态学, 具体那九种,见下图。

说九种分的可能有点太细,又有人总结为三大中心:

  • 腹中心:8 9 1,或者称为生存(行为模式)中心,以身体力行为导向,对生存的问题直觉最强。
  • 脑中心:5 6 7,或者称为资讯(思维模式)中心,以思考和分析为导向,对现实事物的运动现象直觉最强。
  • 心中心:2 3 4,或者称为情感(情绪模式)中心,以感受和想象为导向,对人情和环境的气氛直觉最强。

以上虽然是对人的分析, 完全可以用来套用公司。先说A家,主要搞商业,商业是你死我活,讲行动力,行为导向,换句话说,A家最拿手的是做运营。双11,红包雨,买买买,运营无敌!腹中心。

再说T家,T家做社交,讲究对人的细微把握,要精细,要用脑,所以要拼产品,拼格局,拼细节,最终归结为良好的用户体验。A家的老板本身就是产品经理,又有张小龙加持,产品无敌, 一打开微信界面,再对比支付宝,高下立见。脑中心,多思考可以做产品

最后是B家,B家难道是情感中心,不对吧,确实不太对, 情感中心可不是这么玩的。B家的老板是技术出身,可以说本质上B家还是一个新技术公司,需要用技术来开路,拓展新边疆。做新技术真心不容易, 看华为,各种加班累死人。而B家之前主要竞争对手被众做周知的原因搞掉。有点落了劲,躺着睡觉也能挣钱。只到某一天发现原来这样是取死之道,老板跳出来要呼唤狼性。众人也称之为狼厂。呼唤什么,其实就呼唤不来什么。引用某人点评:“你试试让公司里的程序员每天都排队、集合,跟美发店的小哥小妹们一样,站在公司门口大喊“干!干!干!杀!杀!杀!我们是最棒的!保证完成任务!” 行吗? 狼厂的基因,如果有出路还在新技术上,也许是机器人,无人车, 必然不是o2o,百度外卖。

那情感是什么,心中心能做大事吗?看两个罗,有个罗着了行迹,不想去O, 非要自己做,被供应链坑了个半死,路子其实没错,有点可惜。后一个罗是明白人,只代卖,轻松挣钱。哈哈哈,未来机会都在这里,超级ip!来来来,大家一起挣钱!

 

 

乱弹大数据

首先要声明, 我本人不是做大数据的, 完全属于外行, 只是兴之所至, 随便写点自己的感想。 您要是专家, 发现我那里错了, 欢迎指正, 但别因为这个生气。 先报个拳。

现在说正题, 大数据很火, 不是一般的火, 总理经常挂在嘴边, 还有各路英豪在到处宣讲。 到底什么是大数据, 似乎一直没个准确定义, 有人说要动态的, 每天起码得上TB, 有人说要规模, PB级别才算。 但这些都是技术指标, 回到我们之前文章的一贯思路, 还是要从商业出发。 技术和商业结合, 才能做好。

我个人一直在重复一个观点, 做技术要选战场。 这话是什么意思呢? 就是做同样的技术, 要找一个最好的商业领域去应用。 所谓最好的商业领域, 有各种准则来挑选, 但是归根接底要最容易挣钱。 用这个逻辑去思考, 做大数据的各种技术本身都是相通的, 如果商业想成功, 应当选战场(数据)。简化一下, 就是要找最值钱的数据。

先看说大数据的一般都指什么数据, 最多的就是物联网,传感器, 万物互联, 各种传感器每天都不停的报数据上来, 这个当然是大数据。 其次是工业大数据, 企业运营, 方方面面, 各种数据集中起来。 当然还有行业数据,各种行业,医疗,物流等等。 最后一个是用户数据, 各种人的行为数据, 内容数据。 那么什么数据最值钱呢?明眼人不用问, 当然是用户数据。

说到用户数据, 再扯一扯谁有用户数据。 用户最多的公司当然是首选,B,A, T,M,D。 一个一个说,

先说狼厂, 狼厂的用户数据似乎主要在贴吧, 是内容。 狼厂一直想用这个挖金矿, 一挖就出事, 哈哈哈。

其次就是A, A家掌控商业, 行为数据最多, 应当很有玩头,金融上自成体系, 略微玩玩就可以做的很好。 A家少一点点内容。  影业媒体那些无关用户。

再次就是T, T家微信霸天下, 内容也有, 行为也有, 就看怎么用, 我就一个服字!

然后说说M, 其实M的基本盘很不错, 有端, 有端上用户上来的数据, 还有云, 但是M可能天天都在跑路, 没有静下心来想想这些怎么用起来。

最后一个是D, 最近的当红炸子鸡, 其实刚起步, 任重道远, 要想办法弄弄内容。

点评完毕, 都是第一感觉, 也许漏掉很多, 各位看个热闹吧!

创新产品的用户研究方法

我是做技术出身, 后来混用户研究圈子很多年, 一直做的事情就是新产品研发。 技术背景的人通常不太喜欢用户研究这种所谓软科学, 觉得他们太忽悠。用户研究圈子本身又鱼龙混杂。之前互联网刚兴起的年代, 所谓基于用户的设计UCD相当流行了一阵, 时间长了, 很多公司觉得投入产出比不高,或者审美疲劳, 不管什么原因, 目前用研圈子普遍不如10年前乐观。 这里写篇小文, 说说用研的思路, 希望能激发大家一点思考。

有些公司的用研没有分的很清楚, 通常是跟设计部门放在一起,也有把可用性, 用户调研甚至市场,运营相关的都混在一起。 这里要澄清一下概念, 我们说的主要是面向新产品开发的用研, 可用性不包括在内。用研和设计师完全是两类人,最牛逼的设计师都沉浸在自己的世界里,因为他们其实是创造了自己的世界。用研要做的事情是把自己的世界,变成现实世界。

面向新产品开发的用研或者说UCD,基于用户的产品设计,概念最早是在IBM提出来的, Tom Moran为首的一拨人长期引导这个领域的方向。 我当年在IBM跟他们混过一小段(给自己脸上贴金), 很疑惑这些人并不是很强(我又说人坏话了, Tom不认识中文,他也看不见, 哈哈),为何有如此江湖地位?可能真的是人家是开派元老所以有江湖地位。 UCD那一大套背后是Activity theory, 这里就不多讲了。

国内UCD大概是在03,04年左右引入, IBM还是先驱, 后来有几个国内组织推广,慢慢的发展起来, 接着互联网,移动互联网的大潮, 开支散叶。 有人用类似的思路和方法来做创新产品设计,各种痛苦。 为什么? 道理很简单, UCD理论提出的时代还是软件开发的年代, 所以那一套理论和方法基本是围绕了产品迭代操作的,你已经有了产品, 有了用户, 该怎么做2.0. 中国的互联网圈子基本没有原创, 抄国外的思路, 然后在国内基于用户迭代, 这一套方法玩的很好, 慢慢的也有一些江湖大神摸索出了道理, 比如微信牛b到硅谷要反过来抄。 大家都觉得好神奇, 中国最牛产品经理第一人。 哈哈哈, 我还是跪大神一下!

那为什么真正的新产品开发做用户研究总是不对路? 其实道理也不难, 真正的新产品通常是一个新技术驱动的, 新技术出来的全新形态, 第一步是找用户, 连用户在那里都不知道, 做什么用户研究? 这时候怎么办, 我拿一些经典用户研究方法举例子, 说一说这背后的逻辑。

首先最简单就是发问卷。当然设计问卷这件事情本身非常不简单, 要经验, 要学问。最后体现在信度和效度, 大家都懂! 为什么先说问卷, 操作起来容易。 现在网络发达, 有现成网络平台可用, 弄个网上问卷, 各种群里发链接, 这个东西您要不要, 要A、还是要B, 回来就有数字, 反正老板天天要操心钱, 最喜看数字, 一看数字就高兴, 大家顺利通关。

其次是做竞品研究, 很多童鞋没搞清楚, 以为竞品研究是把东西买回来自己研究。 大错特错, 竞品研究要研究的竞品的用户, 你要锁定竞品, 找到用户群, 然后做研究。

再往下是用户访谈, 有各种扩展,比如情境用户访谈。 对用户研究的能力需求越来越高, 到这里是不是高手一看访谈提纲就能知道一二。 心理学专业出身的秒杀各种半路出家。 不展开了。

最后是放大招, 用户观察, 哈哈哈跟在人屁股后面看, 录像。 一提起这个谁都头大, 太辛苦, 太累, 还不保证能出结果。 投入产品比不能预期, 风险偏好的人都不喜欢。 据说当年日本车做美国市场是派调研员在美国人家里住了好几个月,回来写报告。总之玩到这一步就得玩大的, 一般小公司肯定玩不来。

好了, 依次写下来,大家有没有明白这背后的逻辑? 用户研究,用户研究, 你研究的其实是人, 所以各种方法, 跟人的接触越深入, 你才能得到越多, 当然对技能的要求也越高。 你随便派个人去别人家里住十年, 我相信也写不出观察报告。

等等, 焦点小组在那里? 问这个问题的,您还是没看懂这篇文章, 建议从头开始,再读一遍。

AI时代做产品的思路,7月30日参加西玛会的讲稿

西玛会是微软中国/亚洲研究院前员工和学生成立的交流组织,三天时间聚起了一千多人。在中国it圈怕是绝无仅有。30号西马会成员在创新工场搞了个小规模聚会,本文是当时的讲稿,略做修正。
​标题,The Journey to the AI Era

非常荣幸能站在这里,感谢开复,感谢世鹏给了我这个机会,感谢大家捧场,也因为有了西玛会这个平台,我们这么多人又重新聚在一起。

我今天的标题很大,但是世鹏日程里只给了五分钟,所以我剩下时间只讲干货。看标题,模仿了西游记,西游记了不起,要一句话讲完,是有一个大唐和尚,找来了三个小伙伴,去很远很远的地方,取到了真经,改变了世界。我们其实也是想在AI时代,找几个小伙伴,走很长时间的路,得到真经,改变世界!

前两页先做广告:

我2000年到微软vc组,Harry是我导师,有一段时间我跟着徐迎庆老师,也是我导师。02年毕业后,经不起诱惑,去了ibm,在ibm做了七年人机交互和用户体验,之后又去联想七年,做设备和用户体验,都没熬过七年之痒。现在在一个做算法和硬件实现的小公司叫文安智能科技。在座的有听过的没有? 哇,这么多,我还想说我们公司很低调。ToB的公司都这样,我们公司有十年历史,现在大约200人的规模。我们其实做了集成深度学习硬件的相机,全球第一个真正用起来的。

我本人做产品规划,大产品经理,目前正在搞两个产品,一个深度学习硬件前端,一个全景相机做内容。还在开发中,商业原因,不多说,有兴趣我们可以下来交流,不过为什么做这个的逻辑,我后面会讲,都是我自己的心得体会。

回到这个标题,有三层含义:

第一,AI时代终将来临

第二,我们有很长的路要走

第三,关键还是钱

动画效果:  Journey to->Money from

AI 很火,有前面开复老师的talk,我这里就不说了。

关键还是钱从哪里来,有三条路:

第一从市场上挣 可以toc 可以tob  挣客户的钱,这是正道,也最难。

第二做技术  ,在座搞技术的最多,都会码代码,做算法,搞研究。搞出了黑科技,卖给bat。也不赖!不过他们一般不买,此处不展开。

第三,可以挣投资人的钱,有一种说法叫toVC。不过大家虽然智商都高,但基本也就智商高,投资人都比你情商高,比如开复,智商也高,情商也高,就是双高。所以挣投资人的钱,其实你别想。

这三点,我们一条条再讲下。

倒着说,还是先说下怎么拿投资人的钱。注意是拿钱不是挣钱。一份商业计划书,一定要写100页,表明我态度很认真,其实重点一共就三条,100页里关键的是三页:

第一条,预期市场规模

方向对不对,有没有抓住大市场的前景。

第二条,商业模式

你懂不懂市场,对行业有多深的理解,会不会挣钱。

第三条,竞争优势

什么是竞争优势,多讲两句。有人说是技术,其实一定要想清楚,通常技术不能单独作为竞争优势,还要配合商业模式。你要真是独门绝活也可以,我反正没看到。专利在中国是吓唬人的,目前也没大用。有人说钱也是竞争优势,用钱可以砸死人,这个我同意。不过我们刚起步的时候,手里钱都砸不死人,只能给人挠痒痒。那绕了一圈,什么是竞争优势,主要看人,靠团队。我往这里一站,就是竞争优势,不展开。

接着我们谈技术,你要卖技术,先得做对技术。这里我就班门弄斧一下,在做的其实都比我懂技术。先声明一下,今天的主题是ai,所以我的标题也是ai。但其实ai太大,我只懂一点点计算机视觉,所以只说视觉相关的大方向。

三大方向,自动驾驶,ar增强现实,家庭机器人。哎呀,我真是喜欢数字3,什么都是三条。

没什么了不起,大家都看到了,将来都有很大很大的市场,不过都有点远,三年,五年,还是十年,八年,好像谁也说不清。说了我也不能全信。你要玩大的,万一搞错,节奏不对,没等挣到钱就先饿死。

long journey,不容易啊,唐僧去西天总是要问路。借问施主,去西天要往哪里走,这里有三条路: 1 辅助驾驶.  2 机器人一开始要做核心部件.  3 想做ar,先做vr.  时间关系,都不展开.

投资人讲完了,技术讲完啦,最后说市场怎么做,对我们这样的人来说,这个其实最难。

很多人都听过鸿沟理论,看过跨越鸿沟这本书,尤其做新产品要跨越鸿沟,从早期受众到大众市场。这个理论出来很多年,你也跨,我也跨,基本都掉进沟里啦,九死一生,十死无生,为什么?跨沟的姿势不对,做早期用户一定不是商业模式。正确的姿势是什么?做行业用户,先tob,后toc。

tob怎么做,时间关系推一本书,四步创业法

大家自己看. 还有一条路,可以toc。怎么做,再推一本书,国人写的,超级ip。前面周老师讲了微软小冰,如果小冰真成了,就是一个ip。

终于讲完了,看手机的同学没听没关系,attention,注意啦,看标题,很奇怪,为什么这么说?做事情要做,不能光说,有交流,互相学习,还得靠自己悟,悟出来才是你的。别人讲的可能都不适合你。

就说这么多,谢谢大家!

深度学习往那里去

从昨天开始, 深度学习的元老之一Yann LeCun, 乐总在quora上hold了一个session, 地址如下  。 里面有几个非常有意思的话题, 国内AI媒体新智元马上跟进, 翻译出来了中文版, (标题, LeCun:深度学习突破,对抗式网络最值得期待, 请自行搜索)。

新智元翻译的乐总文章一看完,脑子里翻江倒海, 五味杂陈。 思绪一下子回到了14,5年前, 我快毕业的时代。

我博士毕业是在02年, 毕业前一直在微软实习, 论文的题目是用图模型(graphic model) 做人类舞蹈动作的合成, 大致意思是用跳舞的运动捕捉数据学习一个基于图模型的动态贝叶斯网络, 然后用来合成舞蹈动作。 这样只要提前训练好模型, 就可以生成任意的舞蹈,要多少有多少。 文章发表在siggraph02上, 引用率还不错。 后来为了毕业,顺便用这套框架做了下动态纹理合成, 拿了chinagraph02年的最佳论文奖。 但是一毕业我没待在微软, 去了IBM研究院。 IBM研究院主要做工程研究, 不太涉及基础研究。 大家问我为啥不留在微软, 我给的解释是我贪图享乐, 微软太苦, IBM好一些! 其实内心的苦处, 实在不足为外人道。

我毕业的那个时间节点01-02年, 做计算机视觉的人其实非常痛苦, 传统几何的东西3d geometry做完了。 神经网络因为没有理论基础, 效果受限于计算能力也并不好, 在当时基本被当作骗子。vision的人抓住SVM, boosting 当作救命稻草, 这两个东西工程上都有用, 也号称有统计学习理论做基础。 我当时费了很大力气, 学习了统计学习理论VC维数等知识, 看明白以后, 有点失望, 理论倒是不错, 但是离实践太远, 不能用来指导具体的研究工作。

后来发现Micheal Jordan(UC Berkley教授, 跟打篮球的那个同名) 在贝叶斯网络基础上搞图模型,他当时也是刚刚立山头。 一看就觉得有道理, 特别是动态系统也能放在同一套框架下。 理论完善, 也能操作, 当真找到救命稻草, 救我一命, 得以毕业。

但是图模型虽然理论框架非常完善, 也有对应的学习训练方法: 比如MCMC通杀,就是太慢; 快一点还有变分学习,  凸优化等等;  总之各种学习方法都能尝试,但是仍然存在表现能力太弱的问题。

我要学习人体运动的模型, 从统计意义上讲, 是要估计人体运动所在空间的一个概率分布。 这个空间太大, 我们用贝叶斯方法和人的先验知识,控制模型复杂程度。 加上BIC这样的准则, 保证在有限数据集上训练出结果来。 我一开始就纠结在DBN的观测模型上, 观测模型本质上是要学习从系统内部状态到外部数据表示的一个映射关系。在Jordan的统计框架下用的最多的是混合高斯。 混合高斯其实过分抽象了, 表现不了数据样本的细微分布, 当时也没有深度学习网络这种东西。 找来找去, 我从传统控制领域找来了线性动态系统LDS。  LDS本来就是做动态的, 做对运动建模比混合高斯高到不知哪里去了。 再加上有后面的图模型做高层推断, 一定意义上把舞蹈建模这个问题就解掉了一点点。

现在乐总的文章里提到用深度学习和图模型做结合,用图模型做reasoning。 其实类似我当年的路子, 把LDS换成深度神经网络, 对状态到数据的映射关系表现能力更强。 结合图模型又有一个完备的学习框架, 这样会对深度学习有个大大的提升。

此外乐总还提到对抗式网络的思路, 训练两个网络, 一个做生成, 一个做判决, 两个网络一起竞争, 大家都越来越好, 这样就可以结合有监督和无监督。 让我也回忆起当年做合成时的疑惑。 通常统计学习建模对付问题有两种思路, 一种是估计联合概率分布, 一种是学习条件概率分布。前者其实是最核心的。 有个完全分布,那什么都有了。 但是模型参数太多, 数据有限, 学起来太难。 所以实践中搞搞条件分布, 压缩下供学习的概率空间, 学起来容易些。 对我的生成数据来说, 不管是条件分布, 还是联合分布, 模型受计算能力的限制, 信息量总是有限的, 要用来生成像样的数据, 全random肯定不行, 建模时丢了太多信息。 怎么把丢的东西找回来, 还是得靠知识, Lds动态系统就是利用了人的知识对运动的一种高层抽象。有了lds,就可以基于随机噪声做出像模像样的人体舞蹈动作来。机器就真的能画画,跳舞了。 现在大家都说用深度网络学不出知识。 其实我感觉没那么复杂, 乐总说的这个对抗网络的巧妙设计, 将来发展一定可用来解决这个问题。

总体来说, AI 进步很快, 很有希望!惜乎我只能旁观了, 没法也无时间亲身参与。 但话又说回来, AI进步还是不要太快的好。 原因你懂得!

BTW,有人问我合成怎么做,真的靠噪声驱动模型就可以吗?答案是不可以,模型表示能力毕竟有限,此外一个非线性动态系统,趋向于混沌,你就算模型全对,时间一长也没法预期。那怎么办?加约束。当时的做法实际上是先编舞,再跳舞,人工设定几个关键动作,模型把中间的过程推出来,结果也挺有意思,噪声加的多一点,动作就夸张一点,不加噪声就很直白。

又BTW,当年Cambridge有人来,讨论过为什么语音识别和语音合成完全是两条路,能不能用一个统计框架统一起来。答案是可以,语音识别用的hmm是dbn的特例,合成用template是知识表示,但是语音后边有语义,远比跳舞复杂。当时的计算能力下,统计模型差太远,干不了这事,也许现在技术进步了,有人可以琢磨下。

 

说说线上流量, 玩玩小数据。

前两天参加了个鲜老虎和维肯的公司合并发布会。两个公司都是做ibeacon的, 宣传彩页上写的都是发掘线下流量, 发布会上几个相关公司的老总和投资人反复强调线上流量太贵, 要30-100块钱一个人, 所以现在是做线下流量的时候到了, 是个大机会。 这一块我之前完全不懂, 也没有意识, 听人家一讲激起了我的好奇心。 线上流量到底怎么回事?真这么贵吗? 凭感觉不靠谱, 咱也玩玩数据!

我这个个人网站刚刚建立起来, 之前都是自娱自乐, 完全没告诉过别人, 因此没有自带流量。 最近一个月,后台的统计信息是这样:

blog1

一目了然, 平时基本没有流量, 有几个尖峰, 正好对应我在朋友圈分享文章和引流的时间。 具体情况,待我慢慢细表。

我的朋友圈目前大约是450人, 我在朋友圈分享自己网站的文章一共五次, 分别是7月16号分享了两篇比较长文章, 7月17号分享了一篇短文章,7月19号一篇不长不短的文章, 7月20号一篇不长不短的文章, 7月24号一篇类似的文章。 因为wordpress后台是按美国时间统计, 因此相邻两天会混起来,不好细分, 五篇文章分为三组。  最后我可能有个位数级别的几个粉丝,贡献一下日常流量, 可以忽略不计,因此数据虽然不大, 还是相当准确的。

1. 7.16,17号, 第一组分享,一共三篇文章, 对应上图第一个峰, 一共是428个PV. 3篇文章合并的效果, 打个8折, 算2.4篇(一个人看3篇,记三次, 也有看两篇, 一篇的, 脑补一个八折,各位别较真), 那么在微信朋友圈的转化率是:
428/450/2.4 = 39.6%
相当不错。

2. 7月18号流量归零, 7月19号,7月20号第二组两篇, 一共是269个 pv

269/450/1.6 =   37.3%

3. 之后几天流量归零, 7月24号一篇文章,280个pv, 怎么回事?转化率达到

280/450 =62%

其实很简单, 我在这篇文章里面放了三个之前文章的链接, 文章自引流, 因此又增加了大约70%的pv数。

总结一下, 朋友圈引流效果很好, 高达40%左右, 文章自引流更是出其不意。 所以各位要多多加好友, 按他们30-100一个流量的算法, 取个中位数, 咱的朋友圈也值

65* 450* 40% = 11700

过万人民币啦。

再来个尾巴, 新浪微博是个好东西, 有不少数字, 我刚刚在新浪微博上推广了下网站,我的微博有1200粉丝。推广文章到目前为止被查看了216次, 网站的pv数竟然只有个位数。引流效果不到4% , 大大的差。 难怪新浪微博不值钱啊。。。

 补充: 有人说我最后一篇效果好是当了剁手标题党,也有一定道理