:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Posts Categorized / Ideas

  • Nov 20 / 2017
  • 0
Ideas

锐眼洞察 | 前Uber产品负责人:企业若想繁荣发展,产品团队需要多样化人才(翻译)

作者:Alexander Volkov

原文:To thrive, product teams need diverse talent – a former Uber product leader explains why

译者:TalkingData副总裁 皮山杉 

本译文禁止商用,转载请注明来源与译者!

 译者注:

这篇文章对于我们打造优秀团队有很多借鉴。文中主人公Mina曾是一个在明星创业企业的产品负责人,她分享关于多元化产品经理团队组建的切身体会和一些具体实操经验。其主要观点包括:

  • 构建多元化人员组成的产品团队才能回避回音室效应,真正能打造一款满足需要的产品;
  • 打造多元化产品团队需要团队管理者需要做到招募多元化人才(不局限于自身经验类似或既有网络,招聘时提出更好的问题,了解候选人的创新思维),更重要的是能包容团队中的多元化人才,让每个人都能发挥价值;最后是要有培养这种意识,能坚持招募多元化人才和包容他们

其实,不单单是产品团队,任何团队,无论是销售,咨询,数据工程和研发,数据科学,产品,以及中后台职能团队,在一定基础原则上的多元化是让团队能不断提升的一个加速力,而身为团队管理者就需要有意识的这样训练,并且能找到他们,给他们空间,发挥每个人的作用。

 

Mina Radhakrishnan不希望构建一个产品,其被打上是“解决富人问题”的标签。 在湾区科技企业八年之后(曾在Google担任产品经理,后来在Uber领导产品管理),Mina开始关注创业,这些创业企业借助融资可以让更多用户能够负担得起体验产品的便利。

这一趋势并未让她感到惊讶。 而事实上,这直观上是有道理的。 Mina说:“大多数产品经理都是为自己制造产品。 “而大多数VC都被大量的公司所困扰,他们只关注那些他们能立即明白的,且是由已经与他们的建立联系的人所创立的公司。”

这些创始人和他们背后支持他们的VC可能都会存在认知偏见,当我们没有足够的信息时,我们大多数人会陷入被动的状态:我们把我们熟悉的或者喜欢的事情想象的更好。

在像硅谷这样的地方,年轻人,白人,男人和精英学院的毕业生严重超额——这种偏见极大地限制了可行的创业公司的数量、范围和潜在客户群基数。

然而,有可能利用我们所熟悉的倾向来创造好的方面。 “解决我们眼前的问题是没有错的 – 那些问题往往是我们最擅长解决的问题。 但是只有当某些人得到同一块馅饼时,同样的产品才能被建立起来。 而反过来,如果创始人和产品经理所代表的身份,背景和经验更多,解决的问题就越多,从用户的视角出发的就越多,能把握世界接受程度的团队所能掌控的产品也就越多。

在一些最受欢迎的技术公司工作近十年之后,Mina深入了解建立多样化产品团队所需要的因素,以及如何通过多样性来推动产品持久的成功。 她还看到了同质化的丑陋之处:当同一类人为同一类用户构建相同类型的产品时会发生什么。 (严肃地说,看看那些在旧金山提供的顶级餐厅订阅服务的创始人——这真是令人毛骨悚然)。

为了阻止这个循环,将新鲜的想法带回到所谓的创新领域,产品领导者必须开始寻找和保留不同的人才。 在这篇独家文章中,Mina解释了为什么企业应该优先考虑多样性,以及我们每个人能做些什么来实现。

Mina3CTT_-_01.png

回声室效应不会产生好的产品 – 并阻碍伟大产品的产生

没有一个单一的产品经理能够理解他们用户群中的每一个细节,或者准确地预测每一个新功能如何被接收,没有人会期望这些功能。 事实上,根据Mina的说法,产品经理常常发现自己处于水深火热之中,并不是因为他们不知道什么,而是因为他们认为他们知道他们实际上不知道的东西。

“包括我自己在内的产品经理常常陷入这样一个陷阱:我们自己对于产品体验与每个人如何体验相匹配。 这种思维方式使我们无法构建能够新的各种功能,以让我们接触和服务于新用户。”

发展从用户考虑的同理心可以帮助打破这种习惯,但是当PM们不得不迅速行动以实现他们的路线迭代时,再不断进行观察则是不可能的。而且,无论人们多么努力,总会有一些他们无法预料或理解的观点。

“为了抓住错误,填补空白,并建立一个与用户产生共鸣的产品,产品经理必须学会与身份、背景以及与我们有不同的经验的人员在一起。如果我们只和我们相同的人分享我们的想法,没有人会注意到我们疏漏的方面。同质性是产品团队的‘氪石’。”

不幸的是,即使是那些认为重视多样性的产品领导者,也往往会对其降低优先顺序,并最终打造一个完全来自自己网络的团队。这也设定未来潜在的破坏性后果。 “如果你问自己,’我怎么没有注意到这个致命的缺陷?’ 此时可能已经太迟了。”根据Mina的说法,创始人和产品经理需要从构思阶段就寻求多样化的输入,否则产品将是或者迅速失去打动他人的特点。

Mina举了一个名为Bodega的例子:Bodega是由两位前Google员工创立的一家闪亮的自动售货机创业公司,在《Fast Company》杂志收录之后立即引发了反弹。 “显然,那些家伙不像那样拥有相同的语言、生活方式或文化特色的听众。但还有多少人听了那个演讲呢?有多少顾问、投资者、家人和朋友,他们向其分享了想法?可能有几十个。事实上,由于在硅谷地区缺乏种族、文化和社会经济多样性,他们在谈论了多次后仍认为这是一个好主意。”

Bodega的问题可以从更大的层面来看,考虑到大多数VC选择不投资的可行产品种类时,如:仅为黑人妇女或以母亲为目标的产品 “我们是谁塑造了我们认为有价值的东西。我朋友的公司选择投资一家向黑人女性销售头发拉长器的公司。但由于VC未能看到市场的适应性,所以他们花费了大量的对话沟通才得到资金。不是因为没有市场,而是因为VC他们团队或其生活中没有足够的黑人女性,使得他们认识到这是一个巨大的,尚未开发的市场。”

这不仅仅是由于我们的种族,性别和社会经济背景影响了我们如何构思有价值的产品或特征。 “我曾经在许多拥有各种不同能力的产品队伍中工作过。很多次,我把按钮放在一个具有相同颜色的应用上,团队中有色盲的人告诉我,从而让我意识到这样设计会让许多我们的用户无法区分yes和no按钮。

即使像Mina这样的产品领导者,不断地提醒自己注重不同用户的体验,自己仍然不能完全避免犯错误。 “假设我们能看到一切,甚至假设我们能看到准确的东西,这种观点是非常愚蠢的。我们只注意到我们所关注的,因为我们认为重要。这就是为什么我们必须把注意力集中在我们不知道的人身上。我们最终都会搞砸,但是当我们这样做的时候,不同的团队可以让对方重新回到正确的轨道上。

多元化的产品团队可以对用户体验拥有360度视角

Mina_CTT_02.png

播种和培养多样化团队所需的部分工作正在考虑其他技能,背景和经验对于构建手头产品有何贡献。

“这看起来很明显,但值得一提的是,产品管理工作所需要的情况因产品而异。 成功的产品经理没有一种所谓的通用技能。 如果一个团队需要设计一个非常复杂的调度系统,那么招聘经理可能会想要寻找一个技术背景而不是设计背景的候选人。 但是,如果团队需要建立一个用户交互的消费产品,则设计背景人选更重要。”

Mina在Uber时领导的团队需要产品经理包括技术背景人员以及运营经验的人员。 “我们建立了一些我们的用户从不直接与之互动的产品。那些真正漂亮的司机和用户的App只解决了20%的难题。另外80%是我们用户没有看到的东西 :一切都运行在后台,只需按下一个按钮就可以得到一辆车。这感觉很简单,因为所有的操作都要在后台进行。”

跨界的新型驾驶员App团队是多样化产品团队能够完成而其他人是无法完成的光辉事例。 “我们在建立最初的驾驶员App时犯的一个错误是,我们只看到了驾驶员的人口统计学数据,但我们并没有考虑到是否是否有工作的基本事实:这是一个压力。尤其是当你开车的时候人们对压力的反应方式完全不同。有些人觉得这很令人兴奋,而另一些人却觉得很压抑。”

我们团队的PM在建立了一个新的驾驶员使用的App时,首先确保组建一个广泛的团队。因为团队中同事在面对压力有着不同的回应和经验,所以他们可以评估驾驶员在行驶中的感受,如果突然间车内发出巨大的哔哔声。虽然对某些人有帮助,但这种警报可能会让其他驾驶者完全不知所措。幸运的是,这个团队有足够的同理心去关注这个问题,设想驾驶员是一个已经工作了几个小时,只想回家的司机。

出于这个原因,Mina找到了具有运营背景的产品经理,最终证明他们对于团队在Uber的成功非常重要。“我们需要一个能够回答这样一个问题的人:‘我们怎样才能使这个产品为一个每天使用上百次的用户工作?’不仅仅是回答这个问题,而且更要有问这些问题的感觉。 ”

对于Mina的团队,那个人是Emily。 “如果我们坚持按照传统的产品经理要求,我们就不会雇用她,但是如果没有她,我们也就不会创造出那些令人着迷的产品。她在芝加哥有司机运营的经验,我从来没有见过任何人像Emily一样忙碌的工作,或者如此迅速地掌握她需要的技术技能。最重要的是,她对我们的驾驶员有了大量you价值的知识:他们想什么、他们想要什么、他们为什么奋斗。所以她可以为他们设计出正确的产品。”

随着时间的推移,Mina看到团队中的所有产品经理相互学习,拥有更全面的视角。 “与不同群体的团队一起工作,迫使每个人都变得更有同理心,因为他们不能假设他们知道其他团队成员想要什么或他们的想法。你会有意识地在日常工作中思考这个问题。当你这样做和思考时,它会强迫你使用同理心和有意识的沟通,这就成为你设计的产品一部分。”

在产品团队中优先考虑多样性的基本原则

在某种程度上,大多数产品领导者都会犯错误,阻止他们建立起自己设定的多样化成员的产品团队。Mina表示她已准备好。 “我有多次尝试多样化和包容实践的失败经验。在一个团队中,我曾设定了一个性别比例目标。现在回想起来,这是一个全面的交叉性禁忌,因为它不仅是关于性别,而是通常其所代表的群体不足。如果一个产品团队只是招聘白人女性,他们在多元化方面并没有削弱。只是她们刚建立了一个不同类型的回音室。”

Mina从失败中学到了大量的教训。她与我们分享了以下四个。

切断技术程度的要求

作为一名具有工程背景的产品经理,Mina不得不摆脱这样一个想法:来自知名学校技术学科的人可能会成为更好的PM。 “大多数符合这个标准的人都是白人。招聘经理如果拥有从其的母校或以前的雇主的“谱系”中挑选候选人的潜在意识的话,那么很多合格的候选人进行第一轮面试前淘汰。这些候选人往往来自技术上代表性不足的群体。“

Mina领导产品团队的经验告诉她,不是每个PM都需要特殊的技术才能在产品团队中茁壮成长。 “应该有一个健康的组合,鼓励人们相互学习,填补其他人不能的空白。并不是每个PM都需要在产品所需的每一项任务中都有出色表现 – 这就是为什么有一个团队。”

提出更好的问题

为了聘请具有丰富经验的产品经理,Mina准备了一些问题,促使候选人在工作场所以外谈论他们的生活。 Mina在PM中最重要的素质之一就是对于产品的好奇心,这是产品经理们最有效的一个重要特性,这往往会渗透到他们的日常生活中。

“在面试中,我问了一个非常简单的问题:你最喜欢的实体产品是什么?我认为它是人们品味和创造力的核心。“Mina寻找那些在科技泡沫之外思考的人,因为为了创新,产品经理必须能超越已经完成的事情。

“任何人说iPhone或Macbook后,谈话都会很快结束。因为我真正想要的是他们对“为什么”的回答,没有任何人可以告诉我这些产品还有什么功能没有被包含在大量的思考设计中的。当人们谈论他们个人的东西时,这会更有趣。人们谈到了令人惊异的直发器和兔子开瓶器 – 这并不重要。我想在答案中听到的是一个关于他们发现的产品独特价值的想法。”

对于Mina来说,它已经成为一个创造性思维的伟大代表。 “在司机App新的应用团队中的每一位产品经理都对这个问题做出了很好的回答。”

制定包容性领导战略

希望聘用和留住多样化人才的产品领导者需要围绕这一努力构建领导力战略,而不仅仅是一次次尝试。Mina建议从委员会的招聘开始,建立跨职能团队,并扩大更安静的团队成员的声音。

“也许我是天真的,但我不认为有任何产品负责人是在积极尝试建立独特的,同质化的团队。然而,实时上这其中有很多。为了缩小这个差距,产品经理应该确保他们有一个多元化的面试小组,如同他们想要建立的团队那样。跨职能团队可以帮助实现。通常情况下,工程团队没有太多的多样性,但是有设计师和客户支持人员、撰稿人和财务分析师,则产品团队的多样性可能会更大。”

为了让团队保持多样化,产品领导者相比于投资于多元化,则至少要投资于包容性 。 “作为管理者,确保没有人被轻易地打发掉或关闭下想法是至关重要的。在会议结束时,我会回顾谈话,以确保每个人都有足够的表达时间。这看起来似乎很简单,但是在一个领导人不知所措的小公司里,很多人都不理会。例如问自己:“我放过这个机会是因为我的盘子里有太多东西吗?”大部分情况下都是这个原因,所以我们必须腾出时间和创造空间来做出改变。

培养意识

为了确保他们在日常工作中优先考虑多样性和包容性,产品负责人需要实践自我意识。 这听起来很简单,但从Mina的角度来看,真正的工作是花时间和精力进行自我教育、研究和反思。 “理解你的偏见,以便你能先于他们,同时也意识到你最终会搞砸。 只要确定这个搞砸了不会成为你放弃的时刻。”

从Mina的角度来看,这种粗心大意(而不是恶意)妨碍了多元化的努力。 “作为产品经理,我们战略性地思考我们的产品路线图,但是战术性地考虑其他事情。 现在是时候从战略上思考聘用和留住多元化人才和建设包容性团队的问题了。 如果你在做清单上的另一项任务,它将不会发生。”

当你像Mina这样的领导者把这作为自己的使命的时候,你就能建立多元化团队。

Mina2_MP_-03.png

与众不同的方式构建Different.com.au 

几年前,Mina把她从硅谷学到的东西运用在了其他地方。在看到短视对创新构成威胁之后,Mina决定在远离湾区的其他地方创办她的公司。

Mina说:“我知道我想要建立一些与众不同的产品,这个产品可以解决那些没有从技术中获益的人的问题。

她尽可能地去做。在涉及她和丈夫多年来思考的一系列创业想法之后,他们终于选择了一个有坚实基础的方向。如果他们做得好,这个产品将会在一个几十年来一直没有改变的产业中取得重大进展:澳大利亚的物业管理。

在电话中,Mina详细描述了这个问题。 “在澳大利亚,所有人中有10%拥有投资性房地产。与美国不同的是,这些业主很大一部分并不富裕。他们中的许多人是中产阶级,他们的财产是他们退休的唯一途径。但是由于他们大多数仍然全职工作,他们不得不花费他们一大部分的储蓄来雇佣一个专业的房地产经理,让房地产经理可以和房客进行沟通并处理维护工作。”

Mina在审视岳父的财务状况并为其退休做准备方案时,他们发现物业管理公司在过去二十年收取的费用继续增加,且没有任何理由。当她问起这件事的时候,她的岳父说他们并没有真正和他们的物业经理有任何关系,也没有确切地知道他们做了什么。这家公司每九个月就发一次新的账单。

“这个对话是我的’哈哈’时刻。我看到有人喜欢把他们的退休收入用在糟糕的服务上,我觉得我们可以提供一个很好的服务。“在和更多的业主,房客和物业经理交谈之后,Mina和她的丈夫看到了明确的需求,最终可能具有全球潜力。

因此,有了Different.com.au,Mina和丈夫的愿望解决了他们所爱的人的直接问题。他们的决策过程与硅谷创始人和风投公司的决策过程之间的相似之处并未在Mina身上所迷失。事实上,这些相似之处是让她分享这个故事的核心。

 

  • Nov 20 / 2017
  • 0
Ideas

锐眼发现 | 四大趋势,九大方向:14位UC Berkeley人工智能专家眼中的未来人工智能系统

作者:Ion Stoica, Dawn Song, Raluca Ada Popa, David A. Patterson, Michael W. Mahoney, Randy H. Katz, Anthony D. Joseph, Michael Jordan, Joseph M. Hellerstein, Joseph Gonzalez, Ken Goldberg, Ali Ghodsi, David E. Culler and Pieter Abbeel.

原文:A Berkeley View of Systems Challenges for AI

转载自:雷锋网(本文转自雷锋网,如需转载请至雷锋网官网申请授权)

雷锋网按:近日,UC Berkeley电气工程与计算机科学系(EECS)14位专家联合发布了一份名为《A Berkeley View of Systems Challenges for AI》的报告。这是继去年斯坦福的“AI 100”项目发布《Artificial Intelligence and life in 2030》(2030年的人工智能与生活)报告后,又一家殿堂级的大学对于人工智能未来的思考。

雷锋网发现,相比起斯坦福的报告,伯克利的报告更偏重可执行性,在报告中伯克利从自己的优势学科出发(伯克利计算机系统全美排行第一)明确提出,下一代人工智能系统的问题需要通过体系结构、软件和算法的协同创新来实现,而伯克利也将在从所面临的四大趋势和九大挑战/机会出发,来解决这些问题。

以下是雷锋网的摘录,完整报告可通过下面的地址进行阅读:http://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-159.pdf

 

前言

随着计算机视觉,语音识别和机器翻译系统日益商品化,以及数字广告和智能基础设施等基于学习的后端技术的广泛部署,AI(人工智能)已经从研究实验室转向生产。前所未有的数据和计算水平,机器学习方法的进步,系统软件和体系结构的创新,以及这些技术的广泛可用性使这些变化成为可能。

下一代AI系统有望加速这些发展,并通过频繁的交互和代表我们(通常是任务关键型)的决定(通常在高度个性化的环境中)来加速这些发展并对我们的生活产生越来越大的影响。然而,实现这一承诺会带来令人生畏的挑战。特别是,我们需要人工智能系统,能够在不可预测的环境中做出及时、安全的决策,这对复杂的对手来说是强大的,并且可以在不影响机密性的情况下处理越来越多的组织和个人的数据。这些挑战将因摩尔定律的结束而加剧,这将限制这些技术可以存储和处理的数据量。在本文中,我们提出了几个开放的系统,架构和安全研究方向,可以解决这些挑战,并有助于解开AI改善生活和社会的潜力。

关键词:AI,Machine Learning,Systems,Security

四大趋势,九大方向:14位UC Berkeley人工智能专家眼中的未来人工智能系统

引言

自从上个世纪60年代,模拟人类智能的构想被提出以来,人工智能已经演化成为一种被广泛应用的工程技术,它利用算法和数据,解决包括模式识别、学习、决策等广泛的问题,人工智能越来越多地与其他工程和科学相交叉,成为跨计算领域的一门技术。

尤其在计算机系统这一近年来推动了人工智能技术的发展的领域,并行硬件和高扩展性软件系统促进了机器学习框架和算法的发展,使人工智能可以处理大规模的真实世界问题。存储设备成本的降低、众包技术、移动APP、物联网以及竞争性数据的优势促进了数据处理系统和人工智能技术的进一步发展。这带来的影响是:基于人工智能的解决方案已经接近甚至超过了人类,成熟的人工智能技术不仅为网络搜索、高速交易和电子商务等现有行业提供支持,还大大促进了物联网、增强现实、生物技术、自动驾驶等新兴产业的发展。

这些应用,如无人机、机器人手术、医疗诊断和治疗、虚拟助手等,都需要人工智能系统与真实世界进行交互来决策。由于现实世界在不断变化,有时后这种变化出人意料,这些应用需要支持持续学习或终身学习、以及永动学习。终身学习系统旨在通过高效地转移和利用已有知识来解决多种任务,同时最大程度降低突发性遗忘问题,而永动学习每次迭代关注一组任务,这个任务的边界不断变大,并在不断迭代中逐步提高处理问题的质量。

为了满足以上这些需求,我们面临着诸多艰巨的挑战,例如:如何积极探索动态变化的环境、如何在存在噪音和未预见的输入情况下做出安全和鲁棒性的决策、如何使得决策可解释、如何设计新的简化应用系统构建得模块化架构,等等。此外,由于摩尔定律的终结,人们不能再寄希望于计算和存储能力的倍增来解决下一代人工智能系统的问题。

解决这些难题需要架构、软件和算法的协同创新。本文并不讨论特定的人工智能算法和技术,而是分析系统方面的研究对人工智能技术发展的重要性,提出若干有意义的系统方面的研究方向。

人工智能成功的背后因素

在过去的二十年中,人工智能的进步可用“完美风暴”来形容。有三个原因导致了人工智能的进步:1)大数据,2)高扩展性的计算机和软件系统,3)上述技术的广泛应用。这些趋势使得人工智能的核心算法和体系结构,如深度学习、贝叶斯推理得以在空前的规模和领域进行问题的探索。

趋势与挑战

人工智能已经开始改变了许多应用领域。展望未来,我们预计人工智能将更广泛地推动更多领域的发展,包括:医疗保健、交通、制造、国防、娱乐、能源、农业、销售等。大规模系统和机器学习框架已经帮助在人工智能的发展中取得了举足轻重的作用,我们预计计算机系统将可以更进一步地广泛促进人工智能的发展,为实现这一目标,我们需要考虑如下几个人工智能发展的趋势:

  • 关键性任务的人工智能。挑战:设计一个通过动态环境交互来持续学习、同时做出及时决策的、稳定、安全的人工智能系统。
  • 个性化人工智能。挑战:设计一个可以实现个性化应用程序和服务、但不会影响用户的隐私和安全的人工智能系统。
  • 跨组织结构的人工智能。挑战:设计一个可以训练不同组织拥有的数据集、而不会影响其保密性,在这个过程中提供跨越组织结构界线的人工智能系统。
  • 满足后摩尔定律需求的人工智能。挑战:开发以满足摩尔定律时代后期AI应用的性能需求的特定领域架构和软件系统,包括:用于AI工作负载的定制芯片、在边界有效处理数据的边界云系统、以及抽象和抽样数据的对应技术。

九大研究方向

上述四大趋势和挑战又可以细分为在研究领域的九个挑战或机会,也标明了在我们眼中未来人工智能的九大研究方向。下图表示了这四大趋势和九大研究方向的对应关系。

四大趋势,九大方向:14位UC Berkeley人工智能专家眼中的未来人工智能系统

这九个研究方向包括:

持续学习(Continual learning)

鲁棒决策(Robust decisions)

可解读的决策(Explainable decisions)

安全飞地(Secure enclaves)

对抗学习(Adversarial learning)

在保密数据上共享学习(Shared learning on confidential data)

为特定领域定制的硬件(Domain specific hardware)

组件化的AI系统(Composable AI systems)

跨云端和边界的系统(Cloud-edge systems)

结论

人工智能在过去十年中取得了惊人的进步,并从实验室研究成功转化可以取代之前的大量人力和监督的商业应用。人工智能系统和机器人不仅取代了部分人类工作,而且有望挖掘人类潜力、促进新形式合作。

为了让人工智能更好地服务我们,要克服许多艰巨的挑战,当中不少挑战与系统和基础设施有关。这些挑战源于让人工智能更快、更安全、更易于解读的决策、确保这些决策在对抗多种攻击类型的学习过程中得到准确的结果,在摩尔定律终结的前提下不断提高计算能力,以及构建易于集成到现有应用程序中的系统,并且具有跨越云端和边界的处理能力。

本文总结了几个开放性的系统、架构和安全方面的研究课题。我们希望这些问题能够启发新的研究来推动人工智能的发展,使其计算能力更强,具有可解释性、安全性和可靠性。

  • Nov 17 / 2017
  • 0
Data, Ideas

锐眼洞察 | 大数据平台的思考

作者:TalkingData首席数据科学家 张夏天

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

 

目前我们正在规划我们新一代的智能数据平台;这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。

在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。

自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。

但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。

复杂与失控的现实

复杂的大数据

首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。

可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。

可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。

复杂的技术

其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。

但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。

另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。

综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。

大数据平台设计哲学的重构

面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此,我有一些思考。

拥抱不完美

首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。

经验与价值的沉淀

还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?

因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。

当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。

我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。

从标准化到社区化

利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。

弹性与开放

从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。

很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。

因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。

这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。

同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。

适应而不是约束

最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。

其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。

正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。

总结

写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。

  • Nov 10 / 2017
  • 0
Ideas

锐眼发现 | 《人类简史》作者尤瓦尔·赫拉利:无用阶级的人类将无法超越人工智能

作者:杨绚然

转载于:创业邦

11月6日,由京东金融与红杉资本联合主办的首届“JDD-2017京东金融全球数据探索者大会”正式在北京拉开大幕。《人类简史》作者、世界知名历史学家尤瓦尔·赫拉利发表了题为《AI——21世纪最伟大的革命》主题演讲。

尤瓦尔·赫拉利表示:现在科学正在开启一个全新的时代——人工智能时代。在人工智能时代,自然选择的法则将在生命的进化中没落,被智能设计所取代,权威从人类转移到了算法。

算法对人类的控制最初会体现在很普通的事情、很简单的决策上。

人工智能革命的另一个重要影响是它会彻底改变经济,尤其是就业市场,因为人工智能在越来越多的任务上表现的比人类更为出色。而作为无用阶级的人类在所有方面都无法超越人工智能。

以下为尤瓦尔·赫拉利所做的演讲速记:

如何评价AI在我们这个时代的意义?

我今天想和大家探讨的是21世纪最伟大的革命,它也可能不仅是人类历史上最伟大的革命,也是生命诞生以来最伟大的革命。四十亿年以来,所有生命都被自然选择的法则和有机生物化学的法则所控制着。不管你是一只恐龙还是一只变形虫、一个人类还是一个西红柿,你都要在自然选择的法则下进化,也都要有有机化合物构成。

现在科学正在开启一个全新的时代——人工智能时代。在人工智能时代,自然选择的法则将在生命的进化中没落,被智能设计所取代。生命将冲出有机生物化学统领的范围。在经过四十亿年的进化之后,我们将看到首个无机生命体的诞生。这次革命将在宇宙范围内带来极大影响。其中的一个影响就是,固守在地球四十亿年之后,生命将第一次能离开地球并开始在银河和宇宙中散播。但人工智能革命影响最迅速的不仅仅是银河系,还有我们的社会、经济和文化。

在接下来的几十年我们将要看到的,以及我们今天已经看见的,是权威的转移,从人类转向了算法。越来越多以往由人类独断的决策,那些我们做过的决策,未来都会由计算机和大数据算法做出。最基本的结论或者说这种转变的基础体现就是,一旦掌握了足够多的生物识别数据和足够的计算力,一个外部算法能够比我自己更好地理解我自己。一个拥有足够多的关于我的数据、也有足够算力的算法能理解我的欲望、情绪、想法、决策,能够在很大程度上控制我、操纵我。

算法将如何控制人类?这对人类意味着什么?

这种控制最初体现在很普通的事情、很简单的决策上,比如想要买什么书。

以往你要是想买一本书,你依靠的是自己的感觉,也可能依靠了解你、了解你品味的朋友和家人的推荐。但越来越多的,像买什么书、读什么书这类简单的决策将被电脑算法代我做出决定,比如亚马逊的算法。我们越是依赖了解我们、帮助我们做出决策的算法,我们就越会失去自主决策的能力。因为做出决定的能力是用进废退的。

如果你很长时间不用这项能力,它就像肌肉一样会萎缩。这种退化已经在我们的空间导航能力上体现了出来。以往你如果想从这里去火车站,你需要依靠自己的知识和经验。但是现在你越发依靠智能手机告诉你怎么走。很快你就会失去了找路的能力。

所以人工智能革命的重要影响之一就是权威会从人类身上转移到算法上。

除了权威从人类转移到算法,人工智能革命还会带来哪些变化?

人工智能革命的另一个重要影响是它会彻底改变经济,尤其是就业市场,因为人工智能在越来越多的任务上表现的比人类更为出色。随着人工智能在越来越多的领域超过人类,人类会面临更多的失业,并且我们可能会见证一个新的全球阶级的诞生——无用阶级,无用阶级的人类在所有方面都无法超越人工智能。

比如在无人驾驶领域,五到十年前,机器比人开车开得好听起来还像科幻小说。但今天大部分行业专家都认为这只是个时间问题,也许在未来10年、20年、30年,计算机和无人驾驶会取代上千万出租车司机、公交司机和卡车司机,让人类失业。人工智能驾驶相对人类驾驶员有着巨大的潜在优势。所以让人工智能司机替代人类司机是非常合理的。

同样地,用人工智能医生替代人类医生也是非常合理的。当然,随之而来的是,大多数人手中的经济、政治力量会转移到少数控制并拥有算法、计算机和网络的精英手中。

AI会如何影响金融行业?

同样的事情也会发生在金融领域。要做出明智高效的金融决策,速度非常重要,分析大量信息的能力也非常重要。人工智能处理信息的速度要比任何人类都快得多也高效得多。相比人类,人工智能处理金融决策时的另一个优势就是没有情感和身体。

人类在做价值数千万美元、人民币、欧元的金融交易时经常会犯很严重的错误,因为他们精力不集中,因为他们对某事在生气,或者情绪低落。但人工智能就不会犯这样的错误,它们没有身体,所以永远不会饿、疲惫、生气或者情绪低落。因为它们没有思维和情感,所以只会根据看到的数据做出决策,而不是根据瞬时的情绪。所以在未来几十年,很可能越来越的金融决策会由人工智能而非人类来做,而金融市场的竞争由人与人的竞争转变成算法之间的竞争。

事实上,随着这个过程的加速,我们有生之年也许会看到金融市场由人工智能操控的景象。事情发生如此之快,规模如此之大,人类可能再也无法理解金融市场。

五十年以后,也许没有人能够理解金融体系,只有人工智能才有能力处理这么多的数据,快速理解我们的金融世界。

这些过程的最终结果会是,我们可能会看到一个新的阶级兴起——无用阶级。就如同十九世纪的工业革命创造了一个新阶级——城市无产阶级,即工人阶级。也许二十一世纪最大的经济、社会、政治问题之一将是数亿无用的人该怎么办。这种无用当然不是从父母、朋友、孩子的角度来看,而是在经济和政治制度的角度是无用的。

无用阶级难道不能获得新的就业机会吗?

当然,新的就业机会很可能会出现,由于所有车辆驾驶、服装生产、甚至医药或金融领域的工作会消失,新的工作很可能会出现、被创造出来。但我们无法确定将创造出足够多的新工作。另外还有两个很大的障碍可能会使这些新工作无法解决无用阶级的问题。

首先,即使出现了新的工作,人们也将需具备非常高的技能才能胜任。

大多数专家认为流水线作业的工作,如衬衫生产或出租车驾驶将会被机器人或电脑接管。新的工作将要求人们善于创造,心灵手巧,灵活善变。大多数人都没有经过必要的教育和训练让他们能够执行这类工作。所以可能会有数百万的出租车司机和纺织厂工人失业,新的工作则可能是软件工程这类的工作。更糟糕的是人工智能革命将不会是孤立的分水岭事件。人工智能革命的浪潮将一浪高过一浪。

所以不管什么新的工作出现,在十年或者二十年之内,这些新工作本身也可能消失,被新版本、新一代的计算机和算法取代。想要拥有能做一辈子的工作或者专业,将变成过去时。这不是我们可以推迟到二十年、三十年之后再去面对的问题不像是说我们能自我安慰:人工智能革命要2040年或者2050年才会到来,我们等到那个时候再担心吧。

我们应该做些什么以免在人工智能时代被淘汰?

我们需要今天就考虑这个问题。因为今天的一大问题是在2017年的校园里我们要教小孩子什么、在2017年的学院或大学教学生们什么,才能让他们在2040年得到一份工作,习得必要的技能。如果等到2040年,那就太晚了。

到那个时候他们在学校学习的绝大部分东西就会和时代毫无关联。而在这里我们面对的一大问题就是我们不知道2040年、2050年的就业市场或者经济形势会是怎样的。没有人知道。

在历史上,人类第一次面对这样的窘境:没有人知道未来20年、30年、40年的世界是怎样的。所以我们不知道应该教孩子们学习什么。我能做的最好的预测就是教会他们思维灵活和心理平衡。唯一可以确信的是,2050年的世界将和现在完全不同,那将是一个非常繁忙的世界,以不断变化为其特征。

所以不论情况如何,人们都需要让自己心理平衡、思维灵活以应对这些变化。

上述情况是必然会出现的吗?

我想在收尾前说的最后一点就是技术从不是决定性的,以往也不是。技术总是在我们面前打开无数广阔前景的可能性,但却不会决定我们选择实现哪种可能性。人工智能必然会完全改变我们的生活、我们的社会、我们的经济和政治体系。

但会怎样改变呢?

可以有很多不同的方式,但我们仍然有一些标准可以去选择用这些新技术去做什么。如果我在这里概述的某些可能性让你感到恐惧,那在这场人工智能革命中你仍可以做点什么。

谢谢大家!

  • Nov 09 / 2017
  • 0
Ideas

锐眼洞察 | 大数据分析成为最好职业方向的20个理由(翻译)

作者:Anil Parmar

原文:20 Reasons Why Big Data Analytics is the Best Career Move

译者:TalkingData数据分析师 程薛柯

校对:TalkingData数据工程师 王玮 

本译文禁止商用,转载请注明来源与译者!

据估计,到2020年,美国将有270万个数据分析和数据科学工作岗位。

数据分析专家能够从规模数据中发现隐藏模式、挖掘潜在机会、洞察数据背后的价值,帮助企业改善业务经营现状。随着发展的深入,越来越多的企业认识到大数据在辅助企业决策中的重要作用,相应地,招聘市场上对数据分析专家的需求随之越来越大,数据分析师得以成为2017年的热门职业之一。

如果你已经把大数据分析作为个人职业发展的备选方向,本篇文章将向你重点介绍成为一名数据分析专家将会拥有的一些机遇和优势。

具体如下:

1 – 起步容易

“数据分析”天然地包含了部分编程框架方面(Java、C、Python以及Scala等)的内容,但是,对于数据分析师来说,“从数据中提炼突破性解决方案的能力”更为关键和重要。 成为大数据分析专家需要掌握一些必要的编程语言知识,也需要有一定程度的时间投入。不过,对探索数据、寻找解决方案的执着态度(即便所进行的探索与本职工作无关),则会使学习过程变得相对轻松有趣一些。

要点: 网络上有很多认证课程和资料,可供新手菜鸟和想要拓宽大数据技能的大神在线学习。这些课程提供了丰富的学习内容,有讲解Java或OOPS编程的基本知识,也有介绍如何使用Unix / Linux平台和工具(如Apache HadoopR)。 从tutorialspoint可以获取Hadoop的最新更新,也可访问有关大数据分析框架的有用资源/教程。

2 – 就业前景好

75%的物联网供应商认为大数据分析是最热门的专业,其中超过68%的物联网供应商正致力于雇佣具有大数据分析相关专业知识背景的员工。 基于上述事实和数据,在2017及其未来几年内大数据分析相关就业前景可想而知。

要点: 数据分析工作的主要类型包括描述统计(Descriptive Statistics)、预测分析(Predictive Analytics)和规范分析(Prescriptive Analytics)三种,熟练掌握其中的任意一种,就能在相应领域内取得竞争优势。

3 – 跨行业/领域择业

近年来,Oracle、IBM、Microsoft、SAP、EMC、HP和Dell等老牌软件企业累计投入超过150亿美元专门进行数据管理和分析软件的研发,招聘市场上对跨行业跨领域类型的信息管理专家的需求也随之不断增加。

要点: 在医疗保健、制造、教育、媒体、零售乃至房地产等多个领域,大数据分析技术的进步能够为企业节约成本、提高决策制定能力提供有力支持。这样,大数据分析师可以从多个行业中按照个人技能和兴趣主动进行行业选择。

4 – 有竞争力的薪水

2017年排名前五位的技术职位中,有三个与数据分析相关(数据架构师的薪水中位数为122,000美元、数据经理为109,000美元、数据工程师为105,000美元),相对其它任何IT职业,转行成为一名大数据分析师会有比较高的经济收入。

要点: 逻辑思维能力好、精通计算机以及具备较强沟通能力的学生和年轻人,想要在相同的工作时间内获得高于平均水平的收入,可以考虑将大数据分析作为一种职业选择方向。

5 – 探索热门的分析工具和技术

如果具备一定的数学和统计学基础,大数据分析还可以加深数据分析师在应用统计、线性代数、实分析、数值分析和图论等知识技能的理解和提高。

要点: 拥有计算机科学学位会是一个额外的优势,计算机基础能使大数据分析师快速掌握Python,Hive和SQL编码技能,而这些技能的熟练掌握可以让数据分析师始终处于大数据分析从业人员梯次排名中的前列。

6 – 增强零售商/客户关系

尤其是对于B2B公司来说,大数据分析可以帮助企业更好地了解客户,消除盲目猜测的风险。通过参与对事实数据的细致分析和报告总结,数据分析师能够帮助企业建立起更流畅、用户驱动的顾客体验。

要点: 除了成为大数据分析团队的一员之外,通过访问获客渠道,数据分析师可以帮助品牌执行个性化的营销策略,用以培养客户对企业的忠诚程度。

7 – 获得权威影响力

大数据分析师可以洞察业务流程中的各个细节,知晓哪些业务动作产生了实际的效用、哪些业务动作没有达到应有的效果,业务人员根据数据分析师提供的分析和解决方案开展业务活动,而数据分析师则逐渐成为组织中的关键角色。

要点: 通过对组织关键绩效的探索分析,大数据分析师可以影响高层管理者的决策结果,企业高层管理者参照数据分析师的分析结果对企业未来的业务发展作出决断。

8 – 关键决策能力

对任何企业来说,大数据分析都会产生额外的附加价值,大数据分析可以辅助企业作出明智的决策,帮助企业超越对手获取竞争优势。因此,成为一名大数据分析师,将大大提升成为企业关键决策者的机会。

要点: 随着越来越多的公司依赖大数据专家,大数据分析专家与企业核心人员一起从上到下优化企业决策层架构,同时协调一线员工按照决策进行调整。

9 – 了解多种编程语言

大数据分析并不局限于单一语言或框架,相反,将先进的统计和定量技能与编程能力相结合,可以衍生出许多潜在的语言供数据分析师专门使用。

要点: 如果已经掌握了Java、Perl、Ruby甚至C++方面的知识,大数据分析师可以学习Scala、Julia和MATLAB等语言用以扩展自身的编程能力。

10 – 进入知名公司工作

除了初创公司和小公司,像IBM、SAP、Microsoft、HP和Oracle等大型企业也在发布大数据研究招聘信息。当然,大公司需要有经验的数据分析专家,但他们可以在未来为数据分析师提供持续成长的机会。

要点: 在大牌企业里工作的大数据分析师团队,已经将多种技术语言应用在日常的工作人中,与这样的专家团队一起工作,将会省去学习编程语言的成本。

11 – 成为特定领域内的专家

大数据分析可以使用多种技术语言来应对多样的业务活动 – 例如市场细分。数据分析师熟练掌握一种特定语言,就有了成为相应领域专家的可能,也有了负责相关领域内的所有交付业务机会。

要点: 作为领域专家,大数据分析师将为公司提供可靠的解决方案,公司可以因此解除对外部昂贵数据库的依赖。

12 – 提高Excel技能

无论你是否具有相关工作经验,数据分析岗位都要求从业人员能够具备使用Excel对数据进行清洗、组织、分析以及可视化展示的能力。Excel是管理数据不可缺少的工具之一,熟练的Excel操作技术能帮助你快速得到一份数据分析工作。

要点: 有许多在线教程和现场研讨会资料可供学习,用以了解、掌握Excel的基本技能。Excel小白还可以直接观看微软提供的培训视频快速入门。

13 – 新的技能施展机会

随着保险、财务、销售、营销和商业智能(BI)成为数据分析专家最青睐的领域,使得数据分析师可以在多个行业中跨领域开展工作。

要点: 掌握数据挖掘、数据基础架构、数据可视化和决策分析技能,数据分析师可以在强化数据分析知识的同时,实现分析技能的跨领域使用。

14 – 数字化带来的成长机会

随着技术的进步,很多企业都逐渐认识到大数据研究的重要性,大部分企业已经采用全面的数字系统来提升消费者满意度。而且,通过大数据分析,企业可以为包括从菜鸟级到专家级在内的所有员工的职业发展赋能。

要点: 将大数据分析作为一种职业发展方向,并不是将数据分析师限制在某一个特定的领域,掌握大数据分析专业技术,数据分析师反而可以轻松地切换到任何感兴趣的行业,并且能在该行业内快速地成长起来。

15 – 成为自由顾问

大数据分析师也被称为大数据顾问,他们提供关于营销和销售等关键领域的洞察见解。成为顾问后,大数据分析师将负责从多源数据的组织、分析到可视化的整个过程内的所有业务。

要点: 假如掌握了智能算法,并采用最新的大数据技术,数据分析师就有机会成为多家公司的核心人物,他们将参考数据分析师的数据洞察结论制定企业的核心战略决策。

16 – 成为数据播客的一员

作为一名刚入门的数据分析师,播客(Podcast)是一个强化数据分析能力、发现新的工作机会的好地方。网络上有很多在线播客平台,其中,有来自IBM大数据分析中心的专家坐镇的iTunes是最流行的网络播客平台之一。

要点: 作为数据分析社区的一员,数据分析师能够与社区成员一起学习和成长。此外,有很多企业的Leaders经常会访问这些播客平台,了解数据分析的潜在发展机会。通过播客平台,数据分析师有机会引起他们的关注,从而获得一份不错的数据分析工作。

17 – 成为导师

随着编程技能的提高,数据分析师在公司内的影响力会自动得到凸显,这将大大提高申请成为一名团队指导的可能性。

要点: 随着经验的增长,数据分析师会成为某一特定领域内资深专家,这不仅有助于更好地完成本职工作。持续寻找大数据分析项目指导的教育网站也是一项收入来源。

18 – 成为股东

如果数据分析师能利用够可视化工具直观地展示和表达数据,并提出创造性的解决方案,那么就有可能成为一家公司的股东,将会获得比固定薪水更多的东西以彰显其价值。

要点: 作为数据分析专家,不仅可以获得固定工资,每一次对企业决策的改进也都可以自己创造额外的福利和高额的佣金。

19 – 成为一名优秀的沟通者

数据分析职业前景不仅仅取决于你在编程方面的水平,影响公司采取行动的能力同等重要。因此,在工作中会获得提高沟通能力的机会。

要点: 随着大数据分析项目的日益增多,影响公司采取行动的机会也随之增加。

20 – 有机会成为数据科学家

最后,当大数据分析师同时具备了数据分析师和数据工程师的所有能力之后,就有机会成为一名能够提供全方位解决方案的数据科学家。例如,一家中等规模的公司会将一个大数据项目的工作拆分为数据清理、构建和执行等部分分发给不同的人完成。但是,对于某些公司,他们其中的一名数据科学家就可以完成一个大数据项目所有的任务。

要点: 数据科学家的工作角色可能听起来太多了,但是,有能力在多个领域内顺利展开工作,将使数据分析师在大数据分析领域获得一席之地。

对你而言

无论的大数据分析技术取得多么先进的进步,都不能脱离人类对数据的理解而自动化运行。而且,随着越来越多的公司寻找专家根据业务的观点来理解数据、获取有效解决方案,在随后的几年内,对数据分析专家的需求也将不断地增多。

  • Nov 08 / 2017
  • 0
Ideas, Tech

锐眼发现 | 浅谈人工智能:现状、任务、构架与统一(正本清源)

作者:朱松纯,加州大学洛杉矶分校UCLA统计学和计算机科学教授,视觉、认知、学习与自主机器人中心主任

转载于:微信公众号「视觉求索」

 

目录

引言

第一节    现状:正视现实

第二节   未来:一只乌鸦给我们的启示

第三节    历史:从“春秋五霸”到“战国六雄”

第四节    统一:“小数据、大任务”范式与认知构架

第五节    学科一:计算视觉 — 从“深”到“暗”

第六节    学科二:认知推理 — 走进内心世界

第七节    学科三:语言通讯 — 沟通的认知基础

第八节    学科四:博弈伦理 — 获取、共享人类的价值观

第九节    学科五:机器人学 — 构建大任务平台

第十节    学科六:机器学习 — 学习的终极极限与“停机问题”

第十一节  总结:  智能科学 — 牛顿与达尔文的统一

附录   中科院自动化所报告会上的问答与互动摘录

鸣谢

 

 

引言

“人工智能”这个名词在沉寂了近30年之后,最近两年“咸鱼翻身”,成为了科技公司公关的战场、网络媒体吸睛的风口,随后受到政府的重视和投资界的追捧。于是,新闻发布会、高峰论坛接踵而来,政府战略规划出台,各种新闻应接不暇,宣告一个“智能为王”时代的到来。

到底什么是人工智能?现在的研究处于什么阶段?今后如何发展?这是大家普遍关注的问题。由于人工智能涵盖的学科和技术面非常广,要在短时间内全面认识、理解人工智能,别说非专业人士,就算对本行业研究人员,也是十分困难的任务。

所以,现在很多宣传与决策冲到认识之前了,由此不可避免地造成一些思想和舆论的混乱。

自从去年用了微信以来,我就常常收到亲朋好友转来的惊世骇俗的新闻标题。我发现很多议论缺乏科学依据,变成了“娱乐AI”。一个在1970年代研究黑洞的物理学博士,从来没有研究过人工智能,却时不时被抬出来预测人类末日的到来。某些公司的公关部门和媒体发挥想象力,动辄把一些无辜的研究人员封为“大师”、“泰斗”。最近,名词不够用了。九月初,就有报道把请来的一位美国教授称作“人工智能祖师爷”。这位教授的确是机器学习领域的一个领军人物,但人工智能是1956年开始的,这位教授也才刚刚出生。况且机器学习只是人工智能的一个领域而已,大部分其它重要领域,如视觉、语言、机器人,他都没有涉足,所以这样的封号很荒唐(申明一点:我对这位学者本人没有意见,估计他自己不一定知道这个封号)。当时我想,后面是不是有人会搬出“达摩老祖、佛祖如来、孔雀王、太上老君、玉皇大帝”这样的封号。十月初,赫然就听说达摩院成立了,宣称要碾压美国,舆情轰动!别说一般老百姓担心丢饭碗,就连一些业内的研究人员都被说得心慌了,来问我有什么看法。

我的看法很简单:大多数写报道和搞炒作宣传的人,基本不懂人工智能。这就像年轻人玩的传话游戏,扭曲的信息在多次传导过程中,逐级放大,最后传回来,自己吓到自己了。下面这个例子就说明公众的误解到了什么程度。今年9月我在车上听到一家电台讨论人工智能。两位主持人谈到硅谷脸书公司,有个程序员突然发现,两台电脑在通讯过程中发明了一种全新的语言,快速交流,人看不懂。眼看一种“超级智能”在几秒之内迅速迭代升级(我加一句:这似乎就像宇宙大爆炸的前几秒钟),程序员惊恐万状。人类现在只剩最后一招才能拯救自己了:“别愣着,赶紧拔电源啊!…”终于把人类从鬼门关又拉回来了。

回到本文的正题。全面认识人工智能之所以困难,是有客观原因的。

其一、人工智能是一个非常广泛的领域当前人工智能涵盖很多大的学科,我把它们归纳为六个:

(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、

(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话)、

(3)认知与推理(包含各种物理和社会常识)、

(4)机器人学(机械、控制、设计、运动规划、任务规划等)、

(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)。

(6)机器学习(各种统计的建模、分析工具和计算的方法),

这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。我把它们通俗称作“战国六雄”,中国历史本来是“战国七雄”,我这里为了省事,把两个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。

由于学科比较分散,从事相关研究的大多数博士、教授等专业人员,往往也只是涉及以上某个学科,甚至长期专注于某个学科中的具体问题。比如,人脸识别是计算机视觉这个学科里面的一个很小的问题;深度学习属于机器学习这个学科的一个当红的流派。很多人现在把深度学习就等同于人工智能,就相当于把一个地级市说成全国,肯定不合适。读到这里,搞深度学习的同学一定不服气,或者很生气。你先别急,等读完后面的内容,你就会发现,不管CNN网络有多少层,还是很浅,涉及的任务还是很小。

各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“盲人摸象”,但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:

“横看成岭侧成峰,远近高低各不同

不识庐山真面目,只缘身在此山中。”

其二,人工智能发展的断代现象由于历史发展的原因,人工智能自1980年代以来,被分化出以上几大学科,相互独立发展,而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法,取而代之的是概率统计(建模、学习)的方法。留在传统人工智能领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上分支学科的老一辈中,的确是有很多全局视野的,但多数已经过世或退休了。他们之中只有极少数人在80-90年代,以敏锐的眼光,过渡或者引领了概率统计与学习的方法,成为了学术领军人物。而新生代(80年代以后)留在传统人工智能学科的研究人员很少,他们又不是很了解那些被分化出去的学科中的具体问题。

这种领域的分化与历史的断代, 客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面,媒体上的混乱就更放大了。但是,以积极的态度来看,这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台。

鉴于这些现象,《视觉求索》编辑部同仁和同行多次催促我写一篇人工智能的评论和介绍材料。我就免为其难,仅以自己30年来读书和跨学科研究的经历、观察和思辨,浅谈什么是人工智能;它的研究现状、任务与构架;以及如何走向统一。

我写这篇文章的动机在于三点:

(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。

(2)为那些对人工智能感兴趣、喜欢思考的人们,做一个前沿的、综述性的介绍。

(3)为公众与媒体从业人员,做一个人工智能科普,澄清一些事实。

本文来历 本文技术内容选自我2014年来在多所大学和研究所做的讲座报告。2017年7月,微软的沈向洋博士要求我在一个朋友聚会上做一个人工智能的简介,我增加了一些通俗的内容。2017年9月,在谭铁牛和王蕴红老师的要求下,我参加了中科院自动化所举办的人工智能人机交互讲习班,他们派速记员和一名博士生整理出本文初稿。如果没有他们的热情帮助,这篇文章是不可能写成的。原讲座两个半小时,本文做了删减和文字修饰。仍然有四万字,加上大量插图和示例。很抱歉,无法再压缩了。

本文摘要文章前四节浅显探讨什么是人工智能和当前所处的历史时期,后面六节分别探讨六个学科的重点研究问题和难点,有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系。

诚如屈子所言:“路漫漫其修远兮,吾将上下而求索”。

 

第一节  现状评估:正视现实

人工智能的研究,简单来说,就是要通过智能的机器,延伸和增强(augment)人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会。这里说的智能机器,可以是一个虚拟的或者物理的机器人。与人类几千年来创造出来的各种工具和机器不同的是,智能机器有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念。

抛开科幻的空想,谈几个近期具体的应用。无人驾驶大家听了很多,先说说军用。军队里的一个班或者行动组,现在比如要七个人,将来可以减到五个人,另外两个用机器来替换。其次,机器人可以用在救灾和一些危险的场景,如核泄露现场,人不能进去,必须靠机器人。医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增强人的行动控制能力,帮助残疾人更好生活。此外,还有就是家庭养老等服务机器人等。

但是,这方面的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞,中国有一次春节晚会也拿来表演了。那都是事先编写的程序,结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有。美国也派了机器人过去,同样出了很多问题。比如一个简单的技术问题,机器人进到灾难现场,背后拖一根长长的电缆,要供电和传数据,结果电缆就被缠住了,动弹不得。有一次,一位同事在餐桌上半开玩笑说,以现在的技术,要让一个机器人长时间像人一样处理问题,可能要自带两个微型的核电站,一个发电驱动机械和计算设备,另一个发电驱动冷却系统。顺便说一个,人脑的功耗大约是10-25瓦。

看到这里,有人要问了,教授说得不对,我们明明在网上看到美国机器人让人叹为观止的表现。比如,这一家波士顿动力学公司(Boston Dynamics)的演示,它们的机器人,怎么踢都踢不倒呢,或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢,还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的,被谷歌收购之后、就不再承接国防项目。可是,谷歌发现除了烧钱,目前还找不到商业出路,最近一直待售之中。您会问,那谷歌不是很牛吗?DeepMind下围棋不是也一次次刺激中国人的神经吗?有一个逆天的机器人身体、一个逆天的机器人大脑,它们都在同一个公司内部,那为什么没有做出一个人工智能的产品呢?他们何尝不在夜以继日的奋战之中啊。

人工智能炒作了这么长时间,您看看周围环境,您看到机器人走到大街上了?没有。您看到人工智能进入家庭了吗?其实还没有。您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人,你可能跟Ta聊过。用我老家湖北人的话,这就叫做“扯白”— 东扯西拉、说白话。如果你没有被Ta气得背过气的话,要么您真的是闲得慌,要么是您真的有耐性。

为了测试技术现状,美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了两百万美金奖给竞赛的第一名。有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名,右边是他们的机器人在现场开门进去“救灾”。整个比赛场景设置的跟好莱坞片场一样,复制了三个赛场,全是冒烟的救灾场面。机器人自己开着一个车子过来,自己下车,开门,去拿工具,关阀门,在墙上开洞,最后过一个砖头做的障碍区,上楼梯等一系列动作。我当时带着学生在现场看,因为我们刚好有一个大的DARPA项目,项目主管是里面的裁判员。当时,我第一感觉还是很震撼的,感觉不错。后来发现内情,原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面,每个学生控制一个模块。感知、认知、动作都是人在指挥。就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。造成的结果是,你就可以看到一些不可思议的事情。比如说这个机器人去抓门把手的时候,因为它靠后台人的感知,误差一厘米,就没抓着;或者脚踩楼梯的时候差了一点点,它重心就失去了平衡,可是在后面控制的学生没有重力感知信号,一看失去平衡,他来不及反应了。你想想看,我们人踩滑了一下子能保持平衡,因为你整个人都在一起反应,可是那个学生只是远远地看着,他反应不过来,所以机器人就东倒西歪。

这还是一个简单的场景。其一、整个场景都是事先设定的,各个团队也都反复操练过的。如果是没有遇见的场景,需要灵机决断呢?其二、整个场景还没有人出现,如果有其他人出现,需要社会活动(如语言交流、分工协作)的话,那复杂度就又要上两个数量级了。

其实,要是完全由人手动控制,现在的机器人都可以做手术了,而且手术机器人已经在普及之中。上图是我实验室与一家公司合作的项目,机器人可以开拉链、检查包裹、用钳子撤除炸弹等,都是可以实现的。现在的机器人,机械控制这一块已经很不错了,但这也不是完全管用。比如上面提到的波士顿动力学公司的机器人电驴走山路很稳定,但是它马达噪音大,轰隆隆的噪音,到战场上去把目标都给暴露了。特别是晚上执勤、侦察,你搞那么大动静,怎么行呢?

2015年的这次DRC竞赛,暂时就断送了美国机器人研究的重大项目的立项。外行(包含国会议员)从表面看,以为这个问题已经解决了,应该留给公司去开发;内行看到里面的困难,觉得一时半会没有大量经费解决不了。这个认识上的落差在某种程度上就是“科研的冬天”到来的前题条件。

小结一下,现在的人工智能和机器人,关键问题是缺乏物理的常识社会的常识“Common sense”。 这是人工智能研究最大的障碍。那么什么是常识?常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以举一反三,推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题。我自2010年来,一直在带领一个跨学科团队,攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了,不久会发表出来。

那么是不是说,我们离真正的人工智能还很遥远呢?其实也不然。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。

下面,我就来看一下,自然界给我们展示的解答。

 

第二节   未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类,我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力,你说一个短句,多说几遍,它能重复,这就类似于当前的由数据驱动的聊天机器人。二者都可以说话,但鹦鹉和聊天机器人都不明白说话的语境和语义,也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑。

可是,乌鸦就远比鹦鹉聪明,它们能够制造工具,懂得各种物理的常识和人的活动的社会常识。

下面,我就介绍一只乌鸦,它生活在复杂的城市环境中,与人类交互和共存。YouTube网上有不少这方面的视频,大家可以找来看看。我个人认为,人工智能研究该搞一个“乌鸦图腾”, 因为我们必须认真向它们学习。

上图a是一只乌鸦,被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的,也就是说,没人管,没人教。它必须靠自己的观察、感知、认知、学习、推理、执行,完全自主生活。假如把它看成机器人的话,它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了,他要在城里活下去,包括与城管周旋。

首先,乌鸦面临一个任务,就是寻找食物。它找到了坚果(至于如何发现坚果里面有果肉,那是另外一个例子了),需要砸碎,可是这个任务超出它的物理动作的能力。其它动物,如大猩猩会使用工具,找几块石头,一块大的垫在底下,一块中等的拿在手上来砸。乌鸦怎么试都不行,它把坚果从天上往下抛,发现解决不了这个任务。在这个过程中,它就发现一个诀窍,把果子放到路上让车轧过去(图b),这就是“鸟机交互”了。后来进一步发现,虽然坚果被轧碎了,但它到路中间去吃是一件很危险的事。因为在一个车水马龙的路面上,随时它就牺牲了。我这里要强调一点,这个过程是没有大数据训练的,也没有所谓监督学习,乌鸦的生命没有第二次机会。这是与当前很多机器学习,特别是深度学习完全不同的机制。

然后,它又开始观察了,见图c。它发现在靠近红绿路灯的路口,车子和人有时候停下了。这时,它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚至,哪个灯在哪个方向管用、对什么对象管用。搞清楚之后,乌鸦就选择了一根正好在斑马线上方的一根电线,蹲下来了(图d)。这里我要强调另一点,也许它观察和学习的是别的地点,那个点没有这些蹲点的条件。它必须相信,同样的因果关系,可以搬到当前的地点来用。这一点,当前很多机器学习方法是做不到的。比如,一些增强学习方法,让机器人抓取一些固定物体,如积木玩具,换一换位置都不行;打游戏的人工智能算法,换一换画面,又得重新开始学习。

它把坚果抛到斑马线上,等车子轧过去,然后等到行人灯亮了(图e)。这个时候,车子都停在斑马线外面,它终于可以从容不迫地走过去,吃到了地上的果肉。你说这个乌鸦有多聪明,这是我期望的真正的智能。

这个乌鸦给我们的启示,至少有三点:

其一、它是一个完全自主的智能。感知、认知、推理、学习、和执行, 它都有。我们前面说的, 世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证明了,这个解存在。

其二、你说它有大数据学习吗?这个乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。

其三、乌鸦头有多大?不到人脑的1%大小。 人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,就实现功能了,根本不需要前面谈到的核动力发电。 这给硬件芯片设计者也提出了挑战和思路。十几年前我到中科院计算所讲座, 就说要做视觉芯片VPU,应该比后来的GPU更超前。我最近参与了一个计算机体系结构的大项目,也有这个目标。

在座的年轻人想想看,你们有很大的机会在这里面,这个解存在,但是我们不知道怎么用一个科学的手段去实现这个解。

讲通俗一点,我们要寻找“乌鸦”模式的智能,而不要“鹦鹉”模式的智能。当然,我们必须也要看到,“鹦鹉”模式的智能在商业上,针对某些垂直应用或许有效。

我这里不是说要把所有智能问题都解决了,才能做商业应用。单项技术如果成熟落地,也可以有巨大商业价值。我这里谈的是科学研究的目标。

第三节   历史时期:从“春秋五霸”到“战国六雄”

要搞清楚人工智能的发展趋势,首先得回顾历史。读不懂历史,无法预测未来。这一节,我就结合自己的经历谈一下我的观点,不见得准确和全面。为了让非专业人士便于理解,我把人工智能的60年历史与中国历史的一个时期做一个类比,但绝对不要做更多的推广和延伸。如下图所示,这个的时期是以美国时间为准的,中国一般会滞后一两年。

首先,从表面一层来看。反映在一些产业新闻和社会新闻层面上,人工智能经过了几起几落,英文叫做Boom and Bust,意思是一哄而上、一哄而散,很形象。每次兴盛期都有不同的技术在里面起作用。

最早一次的兴起是1956-1974,以命题逻辑、谓词逻辑等知识表达、启发式搜索算法为代表。当时就已经开始研究下棋了。然后进入第一次冬天。这个时候,中国结束文革,开始学习西方科技。我上小学的时候,就听到报纸报道计算机与人下国际象棋,十分好奇。

1980年代初又兴起了第二次热潮,一批吹牛的教授、研究人员登场了。做专家系统、知识工程、医疗诊断等,中国当时也有人想做中医等系统。虽然这次其中也有学者拿了图灵奖,但这些研究没有很好的理论根基。1986年我上了中国科大计算机系,我对计算机专业本身不是最感兴趣,觉得那就是一个工具和技能,而人工智能方向水很深,值得长期探索,所以我很早就去选修了人工智能的研究生课程,是由自动化系一个到美国进修的老师回来开的课。上完课,我很失望,感觉扑空了。它基本还是以符号为主的推理,离现实世界很远。当时人工智能里面的人员也很悲观,没士气。所以,我就去阅读关于人的智能的相关领域:神经生理学、心理学、认知科学等,这就让我摸到了计算机视觉这个新兴的学科。在80年代末有个短暂的神经网络的研究热潮,我们当时本科五年制,我的大学毕业论文就是做神经网络的。随后,人工智能就跌入了近30年的寒冬。

第三次热潮就是最近两年兴起的深度学习推动的。有了以前的教训,一开始学者们都很谨慎,出来警告说我们做的是特定任务,不是通用人工智能,大家不要炒作。但是,拦不住了。公司要做宣传,然后,大家开始加码宣传。这就像踩踏事件,处在前面的人是清醒的,他们叫停,可是后面大量闻信赶来的人不知情,拼命往里面挤。人工智能的确是太重要了,谁都不想误了这趟车。也有人认为这次是真的,不会再有冬天了。冬天不冬天,那就要看我们现在怎么做了。

所以说,从我读大学开始,人工智能这个名词从公众视线就消失了近30年。我现在回头看,其实它当时并没有消失,而是分化了。研究人员分别聚集到五个大的领域或者叫做学科:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。这些领域形成了自己的学术圈子、国际会议、国际期刊,各搞各的,独立发展。人工智能里面还有一些做博弈下棋、常识推理,还留在里面继续搞,但人数不多。我把这30年叫做一个“分治时期”,相当于中国历史的“春秋时期”。春秋五霸就相当于这分出去的五个学科,大家各自发展壮大。

其次,从深一层的理论基础看我把人工智能发展的60年分为两个阶段。

第一阶段:前30年以数理逻辑的表达与推理为主。这里面有一些杰出的代表人物,如John McCarthy、Marvin Minsky、Herbert Simmon。他们懂很多认知科学的东西,有很强的全局观念。这些都是我读大学的时候仰慕的人物,他们拿过图灵奖和其它一堆大奖。但是,他们的工具基本都是基于数理逻辑和推理。这一套逻辑的东西发展得很干净、漂亮,很值得我们学习。大家有兴趣,可以参考一本最新工具书:The Handbook of Knowledge Representation,2007年编写的,1000多页。但是,这些符号的知识表达不落地,全书谈的没有实际的图片和系统;所以,一本1000多页的书,PDF文件只有10M,下载非常快。而我现在给的这个讲座,PPT差不多1G, 因为有大量的图片、视频,是真实的例子。

这个逻辑表达的“体制”,就相当于中国的周朝,周文王建立了一个相对松散的诸侯部落体制,后来指挥不灵,就瓦解了,进入一个春秋五霸时期。而人工智能正好也分出了五大领域。

第二阶段:后30年以概率统计的建模、学习和计算为主。在10余年的发展之后,“春秋五霸”在1990年中期都开始找到了概率统计这个新“体制”:统计建模、机器学习、随机计算算法等。

在这个体制的转型过程中,起到核心作用的有这么几个人。讲得通俗一点,他们属于先知先觉者,提前看到了人工智能的发展趋势,押对了方向(就相当于80年代买了微软、英特尔股票;90年代末,押对了中国房地产的那一批人)。他们没有进入中国媒体的宣传视野。我简要介绍一下,从中我们也可以学习到一些治学之道。

第一个人叫Ulf Grenander。他从60年代就开始做随机过程和概率模型,是最早的先驱。60年代属于百家争鸣的时期,当别的领军人物都在谈逻辑、神经网络的时候,他开始做概率模型和计算,建立了广义模式理论,试图给自然界各种模式建立一套统一的数理模型。我在以前谈计算机视觉历史的博文里写过他,他刚刚去世。美国数学学会AMS刚刚以他名字设立了一个奖项(Grenander Prize)奖给对统计模型和计算领域有贡献的学者。他绝对是学术思想的先驱人物。

第二个人是Judea Pearl。他是我在UCLA的同事,原来是做启发式搜索算法的。80年代提出贝叶斯网络把概率知识表达于认知推理,并估计推理的不确定性。到90年代末,他进一步研究因果推理,这又一次领先于时代。2011年因为这些贡献他拿了图灵奖。他是一个知识渊博、思维活跃的人,不断有原创思想。80多岁了,还在高产发表论文。顺便吹牛一句,他是第一个在UCLA计算机系和统计系兼职的教授,我是多年之后第二个这样兼职的。其实搞这种跨学科研究当时思想超前,找工作或者评议的时候,两边的同行都不待见,不认可。

第三个人是Leslei Valiant。他因离散数学、计算机算法、分布式体系结构方面的大量贡献,2010年拿了图灵奖。1984年,他发表了一篇文章,开创了computational learning theory。他问了两个很简单、但是深刻的问题。第一个问题:你到底要多少例子、数据才能近似地、以某种置信度学到某个概念,就是PAClearning;第二个问题:如果两个弱分类器综合在一起,能否提高性能?如果能,那么不断加弱分类器,就可以收敛到强分类器。这个就是Boosting和Adaboost的来源,后来被他的一个博士后设计了算法。顺便讲一句,这个机器学习的原理,其实中国人早就在生活中观察到了,就是俗话说的“三个臭裨将、顶个诸葛亮”。这里的裨将就是副官,打仗的时候凑在一起商量对策,被民间以讹传讹,说成“皮匠”。Valiant为人非常低调。我1992年去哈佛读书的时候,第一学期就上他的课,当时听不懂他说话,他上课基本是自言自语。他把自己科研的问题直接布置作业让我们去做,到哪里都找不到参考答案,也没有任何人可以问。苦啊,100分的课我考了40多分。上课的人从四十多人,到了期中只有十来个人,我开始担心是不是要挂科了。最后,还是坚持到期末。他把成绩贴在他办公室门上,当我怀着忐忑不安心情去看分的时候,发现他给每个人都是A。

第四个人是David Mumford。我把他放在这里,有点私心,因为他是我博士导师。他说他60年代初本来对人工智能感兴趣。因为他数学能力特别强,上代数几何课程的时候就发现能够证明大定理了,结果一路不可收拾,拿了菲尔茨奖。但是,到了80年代中期,他不忘初心,还是决定转回到人工智能方向来,从计算机视觉和计算神经科学入手。我听说他把原来代数几何的书全部拿下书架放在走廊,让人拿走,再也不看了。数学家来访问,他也不接待了。计算机视觉80年代至90年代初,一个最大的流派就是做几何和不变量,他是这方面的行家,但他根本不过问这个方向。他就从头开始学概率,那个时候他搞不懂的问题就带我去敲楼上统计系教授的门,比如去问哈佛一个有名的概率学家Persy Diaconis。他完全是一个学者,放下架子去学习新东西,直奔关键的体系,而不是拿着手上用惯了的锤子到处找钉子 — 这是我最佩服的地方。然后,他皈依了广义模式理论。他的贡献,我就避嫌不说了。

这个时期,还有一个重要的人物是做神经网络和深度学习的多伦多大学教授Hinton。我上大学的时候,80年代后期那一次神经网络热潮,他就出名了。他很有思想,也很坚持,是个学者型的人物。所不同的是,他下面的团队有点像摇滚歌手,能凭着一首通俗歌曲(代码),迅速红遍大江南北。这里顺便说一下,我跟Hinton只见过一面。他腰椎疾病使得他不能到处作报告,前几年来UCLA做讲座(那时候深度学习刚刚开始起来),我们安排了一个面谈。一见面,他就说“我们总算见面了”,因为他读过我早期做的统计纹理模型和随机算法的一些论文,他们学派的一些模型和算法与我们做的工作在数理层面有很多本质的联系。我打印了一篇综述文章给他带在坐火车回去的路上看。这是一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文,他回Toronto后就发来邮件,说很高兴读到这篇论文。很有意思的是,这篇论文的初稿,我和学生匿名投到CVPR会议,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。评论都很短:“这篇文章不知所云,很怪异weird”。我们觉得文章死定了,就懒得反驳 (rebuttal),结果出乎意外地被录取了。当然,发表了也没人读懂。所以,我就写成一篇长的综述,算是暂时搁置了。我把这篇论文给他看,Hinton毕竟是行家,他一定也想过类似的问题。最近,我们又回去做这个问题,我在今年的ICIP大会特邀报告上还提到这个问题,后面也会作为一个《视觉求索》文章发布出来。这是一个十分关键的问题,就是两大类概率统计模型如何统一起来(就像物理学,希望统一某两个力和场),这是绕不过去。

扯远了,回到人工智能的历史时期,我作了一个比较通俗的说法,让大家好记住,相当于咱们中国早期的历史。早期数理逻辑的体制相当于周朝,到80年代这个体制瓦解了,人工智能大概有二三十年不存在了,说起人工智能大家都觉得不着调,污名化了。其实,它进入一个春秋五霸时期,计算机视觉、自然语言理解、认知科学、机器学习、机器人学五大学科独立发展。在发展壮大的过程中,这些学科都发现了一个新的平台或者模式,就是概率建模和随机计算。春秋时期虽然有一些征战,但还是相对平静的时期。

那么现在开始进入一个什么状态呢?这“春秋五霸”不断扩充地盘和人马,在一个共同平台上开始交互了。比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟机器人开始融合了。近年来,我和合作者就多次组织这样的联席研讨会。现在,学科之间则开始兼并了,就像是中国历史上的“战国七雄”时期。除了五霸,还有原来留在人工智能里面的两个大方向:博弈决策和伦理道德。这两者其实很接近,我后面把它们归并到一起来讲,一共六大领域,我把它归纳为“战国六雄”。

所以,我跟那些计算机视觉的研究生和年轻人说,你们不要单纯在视觉这里做,你赶紧出去“抢地盘”,单独做视觉,已经没有多少新东西可做的了,性能调不过公司的人是一方面;更麻烦的是,别的领域的人打进来,把你的地盘给占了。这是必然发生的事情,现在正在发生的事情。

我的判断是,我们刚刚进入一个“战国时期”,以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域,这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵,仅仅是做机器学习就称作人工智能专家,恐怕说不过去。

我们正在进入这么一个大集成的、大变革的时代,有很多机会让我们去探索前沿,不要辜负了这个时代。这是我演讲的第一个部分:人工智能的历史、现状,发展的大趋势。

下面,进入我今天演讲的第二个主题:用一个什么样的构架把这些领域和问题统一起来。我不敢说我有答案,只是给大家提出一些问题、例子和思路,供大家思考。不要指望我给你提供代码,下载回去,调调参数就能发文章。

第四节 人工智能研究的认知构架:小数据、大任务范式

智能是一种现象,表现在个体和社会群体的行为过程中。回到前面乌鸦的例子,我认为智能系统的根源可以追溯到两个基本前提条件:

一、物理环境客观的现实与因果链条。这是外部物理环境给乌鸦提供的、生活的边界条件。在不同的环境条件下,智能的形式会是不一样的。任何智能的机器必须理解物理世界及其因果链条,适应这个世界。

二、智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”。如个体的生存,要解决吃饭和安全问题,而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数,这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成分的奖惩调制,如多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。

有了物理环境的因果链和智能物种的任务与价值链,那么一切都是可以推导出来的。要构造一个智能系统,如机器人或者游戏环境中的虚拟的人物,我们先给他们定义好身体的基本行动的功能,再定一个模型的空间(包括价值函数)。其实,生物的基因也就给了每个智能的个体这两点。然后,它就降临在某个环境和社会群体之中,就应该自主地生存,就像乌鸦那样找到一条活路:认识世界、利用世界、改造世界。

这里说的模型的空间是一个数学的概念,我们人脑时刻都在改变之中,也就是一个抽象的点,在这个空间中移动。模型的空间通过价值函数、决策函数、感知、认知、任务计划等来表达。通俗来说,一个脑模型就是世界观、人生观、价值观的一个数学的表达。这个空间的复杂度决定了个体的智商和成就。我后面会讲到,这个模型的表达方式和包含哪些基本要素。

有了这个先天的基本条件(设计)后,下一个重要问题:是什么驱动了模型在空间中的运动,也就是学习的过程?还是两点:

一、 外来的数据。外部世界通过各种感知信号,传递到人脑,塑造我们的模型。数据来源于观察(observation)和实践(experimentation)。观察的数据一般用于学习各种统计模型,这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。因果与统计相关是不同的概念。

二、内在的任务。这就是由内在的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同,我们往往对环境中有些变量非常敏感,而对其它一些变量不关心。由此,形成不同的模型。

机器人的脑、人脑都可以看成一个模型。任何一个模型由数据任务来共同塑造。

现在,我们就来到一个很关键的地方。同样是在概率统计的框架下,当前的很多深度学习方法,属于一个被我称作“大数据、小任务范式(big data for small task)”。针对某个特定的任务,如人脸识别和物体识别,设计一个简单的价值函数Loss function,用大量数据训练特定的模型。这种方法在某些问题上也很有效。但是,造成的结果是,这个模型不能泛化和解释。所谓泛化就是把模型用到其它任务,解释其实也是一种复杂的任务。这是必然的结果:你种的是瓜, 怎么希望得豆呢?

我多年来一直在提倡的一个相反的思路:人工智能的发展,需要进入一个“小数据、大任务范式(small data for big tasks)”,要用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上,必须有一个思路上的大的转变和颠覆。自然辨证法里面,恩格斯讲过,“劳动创造了人”,这个有点争议。我认为一个更合适的说法是“任务塑造了智能”。人的各种感知和行为,时时刻刻都是被任务驱动的。这是我过去很多年来一直坚持的观点,也是为什么我总体上不认可深度学习这个学派的做法,虽然我自己是最早提倡统计建模与学习的一批人,但是后来我看到了更大的问题和局势。当然,我们的假设前提是智能系统已经有了前面讲的基本的设置,这个系统设置是亿万年的进化得来的,是不是通过大量数据了打磨(淘汰)出来的呢。有道理!如果我们把整个发展的过程都考虑进来,智能系统的影响可以分成三个时间段:(1)亿万年的进化,被达尔文理论的一个客观的适者生存的pheontype landscape驱动;(2)千年的文化形成与传承;(3)几十年个体的学习与适应。 我们人工智能研究通常考虑的是第三个阶段。

那么,如何定义大量的任务?人所感兴趣的任务有多少,是个什么空间结构?这个问题,心理和认知科学一直说不清楚,写不下来。这是人工智能发展的一个巨大挑战。

理清了这些前提条件,带着这样的问题,下面我用六节分别介绍六大领域的问题和例子,看能不能找到共性的、统一的框架和表达模型。过去几年来,我的研究中心一直把这六个领域的问题综合在一起研究,目的就是寻找一个统一的构架,找到“乌鸦”这个解。

 

第五节 计算机视觉:从“深”到“暗” Dark, Beyond Deep

视觉是人脑最主要的信息来源,也是进入人工智能这个殿堂的大门。我自己的研究也正是从这里入手的。这一节以一个具体例子来介绍视觉里面的问题。当然,很多问题远远没有被解决。

这是我家厨房的一个视角。多年前的一个下午,我女儿放学回家,我正在写一个大的项目申请书,就拍了这一张作为例子。图像就是一个像素的二维矩阵,可是我们感知到非常丰富的三维场景、行为的信息;你看的时间越长,理解的也越多。下面我列举几个被主流(指大多数研究人员)忽视的、但是很关键的研究问题。

一、几何常识推理与三维场景构建。以前计算机视觉的研究,需要通过多张图像(多视角)之间特征点的对应关系,去计算这些点在三维世界坐标系的位置(SfM、SLAM)。其实人只需要一张图像就可以把三维几何估算出来。最早我在2002与一个学生韩峰发表了一篇文章,受到当时几何学派的嘲笑:一张图像怎么能计算三维呢,数学上说不通呀。其实,在我们的人造环境中,有很多几何常识和规律:比如,你坐的椅子高度就是你小腿的长度约16英寸,桌子约30英寸,案台约35英寸,门高约80英寸 — 都是按照人的身体尺寸和动作来设计的。另外,人造环境中有很多重复的东西,比如几个窗户一样大小一致,建筑设计和城市规划都有规则。这些就是geometric common sense,你根据这些几何的约束就可以定位很多点的三维位置,同时估计相机位置和光轴。

见下图所示,在这个三维场景中,我们的理解就可以表达成为一个层次分解(compositional)的时空因果的解译图(Spatial,Temporal and Causal Parse Graph),简称 STC-PG。STC-PG是一个极其重要的概念,我下面会逐步介绍。

几何重建的一个很重要的背景是,我们往往不需要追求十分精确的深度位置。比如,人对三维的感知其实都是非常不准的,它的精确度取决于你当前要执行的任务。在执行的过程中,你不断地根据需要来提高精度。比如,你要去拿几米以外的一个杯子,一开始你对杯子的方位只是一个大致的估计,在你走近、伸手的过程中逐步调整精度。

这就回到上一节谈的问题,不同任务对几何与识别的精度要求不一样。这是人脑计算非常高效的一个重要原因。最近,我以前一个博士后刘晓白(现在是助理教授)和我其他学生在这方面取得了很好进展,具体可以查看他们相关文章。

二、场景识别的本质是功能推理。现在很多学者做场景的分类和分割都是用一些图像特征,用大量的图片例子和手工标注的结果去训练神经网络模型 — 这是典型的“鹦鹉”模式。而一个场景的定义本质上就是功能。当你看到一个三维空间之后,人脑很快就可以想象我可以干什么:这个地方倒水,这里可以拿杯子,这里可以坐着看电视等。现代的设计往往是复合的空间,就是一个房间可以多种功能,所以简单去分类已经不合适了。比如,美式厨房可以做饭、洗菜、用餐、聊天、吃饭。卧室可以睡觉、梳妆、放衣服、看书。场景的定义是按照你在里面能够干什么,这个场景就是个什么,按照功能划分,这些动作都是你想象出来的,实际图像中并没有。人脑感知的识别区与运动规划区是直接互通的,相互影响。我的博士学生赵一彪就是做这个的,他毕业去了MIT做认知科学博后,现在创立了一家自动驾驶的AI公司。

为了想象这些功能,人脑有十分丰富的动作模型,这些动作根据尺度分为两类(见下图)。第一类(左图)是与整个身体相关的动作,如坐、站、睡觉、工作等等;第二类(右图)是与手的动作相关的,如砸、剁、锯、撬等等。这些四维基本模型(三维空间加一维时间)可以通过日常活动记录下来,表达了人的动作和家具之间,以及手和工具之间的关系。正因为这一点,心理学研究发现我们将物体分成两大类,分别存放在脑皮层不同区域:一类是跟手的大小有关,跟手的动作相关的,如你桌上的东西;另一类是跟身体有关,例如家具之类。

有了这个理解,我们就知道:下面两张图,虽然图像特征完全不同,但是他们是同一类场景,功能上是等价的。人的活动和行为,不管你是哪个国家、哪个历史时期,基本是不变的。这是智能泛化的基础,也就是把你放到一个新的地区,你不需要大数据训练,马上就能理解、适应。这是我们能够举一反三的一个基础。

回到前面的那个STC-PG解译图,每个场景底下其实就分解成为一些动作和功能 (见STC-PG图中的绿色方片节点)。由计算机想象、推理的各种功能决定对场景的分类。 想象功能就是把人的各种姿态放到三维场景中去拟合(见厨房解译图中人体线画)。这是完全不同于当前的深度学习方法用的分类方法。

三、物理稳定性与关系的推理。我们的生活空间除了满足人类的各种需求(功能、任务)之外, 另一个基本约束就是物理。我们对图像的解释和理解被表达成为一个解译图,这个解译图必须满足物理规律,否则就是错误的。比如稳定性是人可以快速感知的,如果你发现周围东西不稳,要倒了,你反应非常快,赶紧闪开。最近我们项目组的耶鲁大学教授Brian Scholl的认知实验发现,人对物理稳定性的反应是毫秒级,第一反应时间大约 100ms。

我们对图像的理解包含了物体之间的物理关系,每个物体的支撑点在那里。比如,下面这个图,吊灯和墙上挂的东西,如果没有支撑点,就会掉下来(右图)。这个研究方向,MIT认知科学系的Josh Tenenbuam教授与我都做了多年。

我提出了一个新的场景理解的minimax标准:minimize instability and maximize functionality最小化不稳定性且最大化功能性。这比以前我们做图像理解的用的MDL(最小描述长度)标准要更靠谱。这是解决计算机视觉的基本原理,功能和物理是设计场景的基本原则。几何尺寸是附属于功能推出来的,比如椅子的高度就是因为你要坐得舒服,所以就是你小腿的长度。

回到我家厨房的例子,你就会问,那里面的水是如何被检测到的呢?水是看不见的,花瓶和水壶里的水由各种方式推出来的。另外,你可能注意到,桌上的番茄酱瓶子是倒立着,为什么呢? 你可能很清楚,你家的洗头膏快用完的时候,瓶子是不是也是的倒着放的呢?这就是对粘稠液体的物理和功能理解之后的结果。由此,你可以看到我们对一个场景的理解是何等“深刻”,远远超过了用深度学习来做的物体分类和检测。

四、意向、注意和预测。厨房那张图有一个人和一只狗,我们可以进一步识别其动作、眼睛注视的地方,由此推导其动机和意向。这样我们可以计算她在干什么、想干什么,比如说她现在是渴了,还是累了。通过时间累积之后,进而知道她知道哪些,也就是她看到了或者没有看到什么。在时间上做预测,她下面想干什么。只有把这些都计算出来了,机器才能更好地与人进行交互。

所以,虽然我们只看到一张图片,那张STC-PG中,我们增加了时间维度,对人和动物的之前和之后的动作,做一个层次的分析和预测。当机器人能够预判别人的意图和下面的动作,那么它才能和人进行互动和合作。后面,我们讲的语言对话可以帮助人机互动和合作;但是,我们日常很多交互协助,靠的是默契,不需要言语也能做不少事。

下面的这一张图,是多摄像机的一个综合场景的解译实例。这是我的实验室做出来的一个视觉系统。这个视频的理解就输出为一个大的综合的STC-PG。在此基础上,就可以输出文字的描述(I2T)和回答提问 QA。我们把它叫做视觉图灵测试,网址:visualturingtest.com。

与第一节讲的机器人竞赛类似,这也是一个DARPA项目。测试就是用大量视频,我们算出场景和人的三维的模型、动作、属性、关系等等,然后就来回答各种各样的1000多个问题。现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像和文本一起训练,这是典型的“鹦鹉”系统,基本都是“扯白”。回答的文字没有真正理解图像的内容,常常逻辑不通。我们这个工作是在VQA之前,认真做了多年。我们系统在项目DARPA测试中领先,当时其它团队根本无法完成这项任务。可是,现在科研的一个现实是走向“娱乐化”:肤浅的歌曲流行,大家都能唱,复杂高深的东西大家躲着走。

既然说到这里,我就顺便说说一些竞赛的事情。大约从2008年开始,CVPR会议的风气就被人“带到沟里”了,组织各种数据集竞赛,不谈理解了,就是数字挂帅。中国很多学生和团队就开始参与,俗称“刷榜”。我那个时候跟那些组织数据集的人说(其实我自己2005年是最早在湖北莲花山做大型数据标注的,但我一早就看到这个问题,不鼓励刷榜),你们这些比赛前几名肯定是中国学生或者公司。现在果然应验了,大部分榜上前几名都是中国人名字或单位了。咱们刷榜比打乒乓球还厉害,刷榜变成咱们AI研究的“国球”。所谓刷榜,一般是下载了人家的代码,改进、调整、搭建更大模块,这样速度快。我曾经访问一家技术很牛的中国公司(不是搞视觉的),那个公司的研发主管非常骄傲,说他们刷榜总是赢,美国一流大学都不在话下。我听得不耐烦了,我说人家就是两个学生在那里弄,你们这么大个团队在这里刷,你代码里面基本没有算法是你自己的。如果人家之前不公布代码,你们根本没法玩。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子,下面我谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式,而是靠举一反三的能力。

我们人是非常功利的社会动物,就是说做什么事情都是被任务所驱动的。这一点,2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传” ):

“天下熙熙,皆为利来;天下攘攘,皆为利往。”

那么,人也就带着功利的目的来看待这个世界,这叫做“teleological stance”。这个物体是用来干什么的?它对我有什么用?怎么用?

当然,有没有用是相对于我们手头的任务来决定的。很多东西,当你用不上的时候,往往视而不见;一旦要急用,你就会当个宝。俗话叫做“势利眼”,没办法,这是人性!你今天干什么、明天干什么,每时每刻都有任务。俗话又叫做“屁股决定脑袋”,一个官员坐在不同位置,他就有不同的任务与思路,位置一调,马上就“物是人非”了。

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢?如何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态。牛顿发明了一个词,在这里被借用了:叫做fluent。这个词还没被翻译到中文,就是一种可以改变的状态,我暂且翻译为“流态”吧。比如,把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态,可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人,到朋友、再到密友等。人类和动物忙忙碌碌,都是在改变各种流态,以提高我们的价值函数(利益)。

懂得这一点,我们再来谈理解图像中的三维场景和人的动作。其实,这就是因果关系的推理。所谓因果就是:人的动作导致了某种流态的改变。理解图像其实与侦探(福尔摩斯)破案一样,他需要的数据往往就是很小的蛛丝马迹,但是,他能看到这些蛛丝马迹,而普通没有受侦探训练的人就看不见。那么,如何才能看到这些蛛丝马迹呢?其一、你需要大量的知识,这个知识来源于图像之外,是你想象的过程中用到的,比如一个头发怎么掉在这里的?还有就是行为的动机目的,犯案人员到底想改变什么“流态”?

我把这些图像之外的东西统称为“暗物质”— Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。有了这个认识,我们来看一个例子(见下图左)。这个例子来自我们CVPR2015年发的paper,主要作者是朱毅鑫,这也是我很喜欢的一个工作。一个人要完成的任务是砸核桃,改变桌子上那个核桃的流态。把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子,整个过程没有任何过人之处,因为你也会这么做。

不过你细想一下,这个问题还相当复杂。这个动作就包含了很多信息:他为什么选这个锤子而不选别的东西,他为什么拿着锤这个柄靠后的位置?他挥动的力度用多少,这都是经过计算的。这还有几千几万的可能其他各种选择、解法,他没有选择,说明他这个选法比其它的选择肯定会好,好在哪呢?看似简单的问题,往往很关键,一般人往往忽略了。

你通过这一琢磨、一对比就领悟到这个任务是什么,有什么窍门。以前学徒就是跟着师傅学,师傅经常在做任务,徒弟就看着,师傅也不教,徒弟就靠自己领悟。有时候师傅还要留一手,不然你早早出师了,抢他的饭碗。有时候师傅挡着不让你看;莫言的小说就有这样的情节。人就是在观察的时候,把这个任务学会了。

现在到一个新的场景(图右),原来学习的那些工具都不存在了,完全是新的场景和物体,任务保持不变。你再来砸这个核桃试试看,怎么办?人当然没有问题,选这个木头做的桌子腿,然后砸的动作也不一样。这才是举一反三,这才是智能,这没有什么其他数据,没有大量数据训练,这不是深度学习方法。

那这个算法怎么做的呢?我们把对这个物理空间、动作、因果的理解还是表达成为一个Spatial,Temporal and Causal Parse Graph(STC-PG)。这个STC-PG包含了你对空间的理解(物体、三维形状、材质等)、时间上动作的规划、因果的推理。最好是这样子砸,它物理因果能够实现,可能会被砸开,再连在一块来求解,求时间、空间和因果的这么一个解析图,就是一个解。也就是,最后你达到目的,改变了某种物理的流态。

我再强调几点:

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的,它里面的节点和边大多数在图像中是没有的,也就是我称作的“暗物质”。

二、这个计算的过程中,大量的运算属于“top-down”自顶向下的计算过程。也就是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一个合理的解。而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。神经网络只有feedforward 向上逐层传播信息。你可能要说了,那不是有Back-propagation吗?那不是top-down。一年前,LeCun来UCLA做讲座,他看到我在座,就说DNN目前缺乏朱教授一直提倡的Top-Down计算进程。

三、学习这个任务只需要极少的几个例子。如果一个人要太多的例子,说明Ta脑袋“不开窍”,智商不够。顺便说一句,我在UCLA讲课,期末学生会给老师评估教学质量。一个常见的学生意见就是朱教授给的例子太少了。对不起,我没时间给你上课讲那么多例子,靠做题、题海训练,那不是真本事,也不是学习的本质。子曰:“学而不思则罔,思而不学则殆”。这里的“思”应该是推理,对于自然界或者社会的现象、行为和任务,形成一个符合规律的自洽的解释,在我看来就是一个STC-PG。

那么STC-PG是如何推导出来的呢?它的母板是一个STC-AOG,AOG就是And-Or Graph与或图。这个与或图是一个复杂的概率语法图模型,它可以导出巨量的合乎规则的概率事件,每一个事件就是STC-PG。这个表达与语言、认知、机器人等领域是一致的。在我看来,这个STC-AOG是一个统一表达,它与逻辑以及DNN可以打通关节。这里就不多讲了。

接着砸核桃的例子讲,还是朱毅鑫那篇文章的实验,这个实验很难做。比如现在的一个任务是“铲土”,我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力。见下图。

第一组实验(图左)。我给你一些工具,让你铲土,机器人第一选择挑了这个铲子,这个不是模式识别,它同时输出用这个铲子的动作、速度;输出铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置。第二选择是一把刷子。

第二组实验(图中)。假如我要把这些工具拿走,你现在用一些家里常见的物体,任务还是铲土。它的第一选择是锅,第二选择是杯子。二者的确都是最佳选择。这是计算机视觉做出来的,自动的。

第三组实验(图右)。假如我们回到石器时代,一堆石头能干什么事情?所以我经常说,咱们石器时代的祖先,比现在的小孩聪明。因为他们能够理解这个世界的本质,现在,工具和物体越来越特定了,一个工具做一个任务,人都变成越来越傻了。视觉认知就退化成模式识别的问题了:从原来工具的理解变成一个模式识别。也就是由乌鸦变鹦鹉了。

计算机视觉小结:我简短总结一下视觉的历史。见下图。

视觉研究前面25年的主流是做几何,以形状和物体为中心的研究:Geometry-Based and Object-Centered。最近25年是从图像视角通过提取丰富的图像特征描述物体的外观来做识别、分类: Appearance-Based and View-Centered。几何当然决定表观。那么几何后面深处原因是什么呢?几何形状的设计是因为有任务,最顶层是有任务,然后考虑到功能、物理、因果,设计了这些物体再来产生图像,这是核心问题所在。我把在当前图像是看不见的“东西”叫dark matter。物理里面dark matter energy占95%,确确实实在我们智能里面dark matter也占了大部分。而你看到的东西就是现在深度学习能够解决的,比如说人脸识别、语音识别,就是很小的一部分看得见的东西;看不见的在后面,才是我们真正的智能,像那个乌鸦能做到的。

所以,我的一个理念是:计算机视觉要继续发展,必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,才能到达真正的理解。现在大家都喜欢在自己工作前面加一个Deep,以为这样就算深刻了、深沉了,但其实还是非常肤浅的。不管你多深,不管你卷积神经网络多少层,它只是处理可见的图像表观特征、语音特征,没有跳出那5%,对吧?那些认为深度学习解决了计算机视觉的同学,我说服你了么?如果没有,后面还有更多的内容。

视觉研究的未来,我用一句话来说:Go Dark, Beyond Deep — 发掘暗,超越深。

这样一来,视觉就跟认知和语言接轨了。

 

第六节 认知推理:走进内心世界

上一节讲到的智能的暗物质,已经属于感知与认知的结合了。再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世界,同时受到动机任务的影响和扭曲。研究内涵包括:

  • Ta看到什么了?知道什么了?什么时候知道的?这其实是对视觉的历史时间求积分。
  • Ta现在在关注什么?这是当前的正在执行的任务。
  • Ta的意图是什么?后面想干什么?预判未来的目的和动机。
  • Ta喜欢什么?有什么价值函数?这在第九节会谈到具体例子。

自从人工智能一开始,研究者就提出这些问题,代表人物是Minsky:society of minds,心理学研究叫做Theory of minds。到2006年的时候,MIT认知科学系的Saxe与Kanwisher(她是我一个项目合作者)发现人的大脑皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么。这是人工智能的重要部分。

说个通俗的例子,你可能听到过这样的社会新闻:某男能够同时与几个女朋友维持关系,而且不被对方发现,就是他那几个女朋友互相不知情。这其实很难做到,因为你一不小心就要暴露了。他需要记住跟谁说过什么谎话、做过或者答应过什么事。这种人的这个脑皮层区一定是特别发达,而他的那些女朋友的这个区可能不那么发达。电影中的间谍需要特别训练这方面的“反侦察”能力,就是你尽量不让对方发现你的内心。这是极端状况。现实生活中,一般非隐私性的活动中,我们是不设防的,也就是“君子坦荡荡”。

不光是人有这个侦察与反侦察的能力,动物也有(见上图)。比如说这个鸟(图左),它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看到它;如果有,它就不藏,它非要找到没人看它的时候和地方藏。这就是它在观察你,知道你知道什么。图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后,发现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼。水獭就想办法把鱼藏起来,它把这个鱼藏到水底下,然后这个狐狸去找。这说明了动物之间互相知道对方在想什么。

小孩从一岁多的时候开始就有了这个意识。一个关键反应证据是:他会指东西给你看,你看到了、还是没看到的,他会知道。Felix Warneken现在在哈佛大学当心理学系的助理教授。他当博士生的时候做过一系列心理实验。一般一岁多的小孩能知道给你开门,小孩很乐意、主动去帮忙。小孩很早就知道跟人进行配合,这就是人机交互。你把这个小孩看成一个机器人的话,你要设计一个机器人,就是希望它知道看你想干什么,这是人工智能的一个核心表现。

尽管人工智能和认知科学,以及最近机器人领域的人都对这个问题感兴趣,但是,大家以前还都是嘴上、纸上谈兵,用的是一些toy examples作为例子来分析。要做真实世界的研究,就需要从计算机视觉入手。计算机视觉里面的人呢,又大部分都在忙着刷榜,一时半会还没意思到这是个问题。我的实验室就捷足先登,做了一些初步的探索,目前还在积极推进之中。

我们首先做一个简单的试验,如上图。这个人在厨房里,当前正在用微波炉。有一个摄像头在看着他,就跟监控一样,也可以是机器人的眼睛(图左)。首先能够看到他目前在看什么(图中),然后,转换视角,推算他目前看到了什么(图右)。

上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间(图e),它在观察一个人在房间里面做事(图a)。为了方便理解,咱们就想象这是一个养老院或者医院病房,机器人需要知道这个人现在在干什么,看什么(图c)。它的输入仅仅是一个二维的视频(图a)。它开始跟踪这个人的运动轨迹和眼睛注视的地方,显示在图e的那些轨迹和图f的行为分类。然后,图d(右上角)是它估算出来的,这个人应该在看什么的图片。也就是,它把它附体到这个人身上,来感知。这个结果与图b对比,非常吻合。图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的,他确实在看的东西。这个实验结果是魏平博士提供的,他是西交大前校长郑南宁老师那里的一个青年教师,博士期间在我实验室访问,后来又回来进修。

这里面需要推测动作与物体的时空交互,动作随时间的转换,手眼协调。然后,进一步猜他下面干什么,意图等等。这个细节我不多讲了。

对这个人内心的状态,也可以用一个STC-AOG 和STC-PG 来表达的,见下图,大致包含四部分。

一、时空因果的概率“与或图”,STC-AOG。它是这个人的一个总的知识,包含了所有的可能性,我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一个表达,是一个STC-PG解译图。此解译图包含三部分,图中表达为三个三角形,每个三角形也是一个STC-PG 解译图。

二、当前的情景situation,由上图的蓝色三角形表示。当前的情况是什么,这也是一个解,表示视觉在0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动作规划图,由上图的绿色三角形表示。这也是一个层次化的解译图,预判他下面还会做什么事情,

四、当前的注意力,由上图的红色三角形表示。描述他正在关注什么。

把这整个解译图放在一块,基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态。用一个统一的STC-PG 和 STC-AOG来解释。 这是一个层次的分解。 因为是Composition, 它需要的样本就很少。

有人要说了,我的深度神经网络也有层次,还一百多层呢。我要说的是,你那一百多层其实就只有一层,对不对?因为你从特征做这个识别,中间的东西是什么你不知道,他不能去解释中间那些过程,只有最后一层输出物体类别。

上面说的这个表达,是机器人对某个人内心状态的一个估计,这个估计有一个后验概率,这个估计不是唯一的,存在不确定性。而且,它肯定不是真相。不同的人观察某个人,可能估计都不一样。那么在一个机器与人共生共存的环境中,假设这个场景里有N个机器人或者人,这里面有很多N个“自我”minds。然后,每个人有对别人有一个估计,这就有N x(N-1)个minds表达。我知道你在想什么,你知道我在想什么,这至少是平方级的。你有一百个朋友的话,哪个朋友他脑袋里想什么你心里都有数。关系越近,理解也就越深,越准确。

当然,我们这里只是做一阶推理,在复杂、对抗的环境中,人们不得不用多阶的表达。当年司马懿和诸葛亮在祁山对峙时,诸葛亮比司马懿总是要多算一阶。所谓兵不厌诈,就是有时候我故意把一个错误信息传给你,《三国演义》中很多此类的精彩故事,比如周瑜打黄盖、蒋干盗书。

我用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人,他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind。

每个mind除了上面谈到的知识STC-AOG 和状态STC-PG,还包含了价值函数,就是价值观,和决策函数。价值观驱动动作,然后根据感知、行动去改变世界,这样因果就出来了。我后面再细谈这个问题。

最底下中间的那个椭圆代表真实世界(“上帝”的mind,真相只有TA知道,我们都不知道),上面中间的那个椭圆是共识。多个人的话就是社会共识。在感知基础上,大家形成一个统一的东西,共同理解,我们达成共识。比如,大家一起吃饭,菜上来了,大家都看到这个菜是什么菜,如果没有共识那没法弄。比如,“指鹿为马”或者“皇帝的新装”,就是在这些minds之间出现了不一致的东西。这是所谓“认识论”里面的问题。以前,在大学学习认识论,老师讲得比较空泛,很难理解;现在你把表达写出来,一切都清楚了。这也是人工智能必须解决的问题。

我们要达成共识,共同的知识,然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候,就有社会道德和伦理规范,这都可以推导出来了。俗话说,入乡随俗。当你加入一个新的团体或者社交群体,你可能先观察看看大家都是怎么做事说话的。机器人要与人共生共存 必须理解人的团体的社会道德和伦理规范。所以说,这个认识论是机器人发展的必经之道。乌鸦知道人类在干什么,它才能够利用这个在社会里生存。

那么如何达成共识呢?语言就是必要的形成共识的工具了。

 

第七节 语言通讯:沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告,从我自己观察的角度来谈,视觉与语言是密不可分的。

人类的语言中枢是独特的,有趣的是它在运动规划区的附近。我们为什么要对话呢?语言的起源就是要把一个人脑袋(mind)的一个信息表达传给你一个人,这就包括上一节讲的知识、注意、意向计划,归纳为图中那三个三角形的表达。希望通过对话形成共识,形成共同的任务规划,就是我们一致行动。所以,语言产生的基础是人要寻求合作。

动物之间就已经有丰富的交流的方式,很多借助于肢体语言。人的对话不一定用语言,手语、哑剧(pantomine)同样可以传递很多信息。所以,在语言产生之前,人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表达。没有这样的认知基础,语言是空洞的符号,对话也不可能发生。

发育心理学实验表明,12个月的小孩就可以知道去指东西,更小年龄就不会,但是很多动物永远达不到这个水平。举个例子,有人做了个实验。一群大猩猩坐在动物园里,一个猩猩妈妈带一个小猩猩,玩着玩着小猩猩跑不见了,然后这个妈妈去找。周围一大堆闲着的猩猩坐在那里晒太阳,它们明明知道那个小猩猩去哪了。如果是人的话,我们就会热心地指那个小孩的方向,人天生是合作的,去帮助别人的,助人为乐,所以这是为什么我们人进化出来了。猩猩不会,猩猩不指,它们没有这个动机,它们脑袋与人相比一定是缺了一块。人和动物相比,我们之所以能够比他们更高级,因为脑袋里有很多通信的认知构架(就像多层网络通讯协议)在大脑皮层里面,没有这些认知构架就没法通信。研究语言的人不去研究底下的认知构架,那是不会有很大出息的。下面这个图来源于人类学的研究的一个领军人物 Michael Tomasello。

除了需要这个认知基础,语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本之木。这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程:信息的一次发送。当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication。这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码,因为这样送起来比较短,比较快;针对噪声通道,加些冗余码防错;然后解码,某乙就拿到了这个信息。见下图。

在这个通讯过程之中他有两个基本的假设。第一、这两边共享一个码本,否则你没法解码,这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面,我们都知道世界上正在发生什么什么事件,比如哪个股票明天要涨了,哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的片段(PG:parse graph)。这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)。比如,很多女人拿起电话,叫做“煲粥”,就在交流内心的一些经历和感受。

如果没有这个共同的外部世界,那我根本就不知道你在说什么。比如外国人聚在一起讲一个笑话,我们可能听不懂。我们中国人说“林黛玉”,那是非常丰富的一个文化符号,我们都明白谁是林黛玉,她的身世、情感、性格和价值观,就轮到外国人听不懂了。

Shannon的通讯理论只关心码本的建立(比如视频编解码)和通讯带宽(3G、4G、5G)。1948年提出信息论后,尽管有很多聪明人、数学根底很强的人进到这个领域,这个领域一直没有什么大的突破。为什么?因为他们忽视了几个更重大的认识论的问题,避而不谈:

  • 甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型?否则,解码之后,乙也不能领会里面的内容?或者会误解。那么我发这个信息的时候,措辞要尽量减少这样的误解。
  • 甲还应该要想一下:为什么要发这个信息?乙是不是已经知道了,乙关不关注这个信息呢?乙爱不爱听呢?听后有什么反应?这一句话说出去有什么后果呢?
  • 乙要想一下:我为什么要收这个信息呢?你发给我是什么意图?

这是在认知层面的,递归循环的认知,在编码之外。所以,通讯理论就只管发送,就像以前电报大楼的发报员,收钱发报,他们不管你发报的动机、内容和后果。

纵观人类语言,中国的象形文字实在了不起。所谓象形文字就完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了,不需要编解码。我觉得研究自然语言的人和研究视觉统计建模的人,都要好好看看中国的甲骨文,然后,所有的事情都清楚了。每个甲骨文字就是一张图,图是什么?代表的就是一个解译图的片段(fragment of parse graph)。

上面这个图是一个汉字的演变和关系图,从一本书叫做《汉字树》得来的。几年前,我到台湾访问,发现这本丛书,很有意思。这个图是从眼睛开始的一系列文字。

首先从具象的东西开始,这中间是一个眼睛,“目”字,把手搭在眼睛上面,孙悟空经常有这个动作,就是“看”(look)。

然后是会意,比如“省”,就是细看,明察秋毫,画一个很小的叶子在眼睛上面,指示说你看叶子里面的东西,表示你要细看。

然后开始表达抽象的概念,属性attribute、时空怎么表达,就是我们甲骨文里面,表示出发、终止,表示人的关系,人的脑袋状态,甚至表现伦理道德。就这样,一直推演开。

所以,搞视觉认知的,要理解物体功能就要追溯到石器时代去,搞语言的要追溯到语言起源。

下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊。下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型,其实就重新发明一些更具像的甲骨文。这项技术是由YiHong,司长长等博士做的无监督学习。他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的。

所以,从生成式模型的角度来看,语言就是视觉,视觉就是语言。

再来看看动词。考考你们,这是啥意思?第一个字,两只手,一根绳子,在拖地上一个东西,拿根绳子拽。第二个很简单,洗手。第三是关门。第四是援助的援字,一只手把另外一个人的手往上拉。第五也是两个手,一个手朝下一个手朝上,啥意思?我给你东西,你接受。第六是争夺的争,两个手往相反的方向抢。第七两个人在聊天。基本上,字已经表示了人和人之间的动作细节。

现在我的实验室里,计算机也能自动学出“类甲骨文”的动词的表达,见下图。我们学出来的这些两个人交互的动作包括:坐、玩手机、握手、人拉人等等。我们把这些动作模型分别叫做4DHOI (4D Human-Object Interaction)、4Dhoi(4D hand-object interaction)、4DHHI (4D Human-Human Interaction)。

我刚才说了名词和动词,还有很多其他的东西,我建议你们去研究一下,要建模型的话我们古代的甲骨文其实就是一个模型,他能够把我们世界上所有需要表达的东西都给你表达了,是一个完备了的语言模型。

我再举个复杂和抽象的例子,咱们古代人怎么定义伦理道德,非常的漂亮!

引言中谈到,大家担心机器人进入社会以后,是不是会危害人类生存,所以引发了很多讨论。有一次我参加一个DARPA内部会议,会议邀请了各界教授们讨论这个问题,他们来自社会伦理学、认知科学、人工智能等学科。大家莫衷一是。轮到我做报告,我就说,其实这个问题,中国古代人的智慧就已经想清楚了。

伦理道德的“德”字怎么定义的?什么叫道德?

道德规范是什么,它是个相对的定义,随着时间和人群而变化。我刚来美国的时候,美国社会不许堕胎、不许同性恋,现在都可以了。中国以前妇女都不许改嫁。甚至到几十年前,我在家乡都听说这样的规矩:如果一个妇女在路上,她的影子投到一个长老身上,那是大不敬,所以走路必须绕开,这就是一种社会规范。

中文这个“德”字你看左边是双人旁,双人旁其实不是两个人,双人旁在甲骨文画的是十字路口(见最右边那个图),十字路口就是说你是要做个选择,是个决策。你怎么选择?比如说一个老人倒在地上,你是扶他还是不扶他?这就是一个选择。贪不贪污、受不受贿这都是内心的一个选择。这个选择是你心里面做出的,所以下面有个心字。

那怎么判断你内心的选择符不符合道德呢?社会不可能把大量规则逐条列出来,一个汉字也没法表达那么多的内容吧。“德”字上面是一个十字,十字下面一个四,其实不是四,而是眼睛,十个眼睛看着你。就是由群众来评判的。这就相当于西方的陪审团,陪审团都是普通民众中挑选出来的(那是更进一层的法律规范了)。他们如果觉得你做的事情能够接受就是道德,如果不接受那就是不道德。所以,你在做选择的时候,必须考虑周围人的看法,人家脑袋里会怎么想,才决定这个东西做不做。

所以,如果没有上一节讲的认知基础,也就是你如果不能推断别人的思想,那就无法知道道德伦理。研究机器人的一个很重要的一个问题是:机器要去做的事情它不知道该不该做。那么它首先想一下(就相当于棋盘推演simulation):我如何做这个事情,人会有什么反应,如果反应好就做,如果反应不好就不做,就这么一个规则。以不变应万变。

那它怎么知道你怎么想的呢?它必须先了解你,你喜欢什么、厌恶什么。每个人都不一样,你在不同的群体里面,哪些话该说,哪些话不该说,大家心里都知道,这才是交互,你没有这方面知识你怎么交互呢?

所以我还是觉得我们古代的人很有智慧,比我们现在的人想的深刻的多,一个字就把一个问题说得很精辟。咱们现在大部分人不想问题,因为你不需要想问题了,大量媒体、广告到处都是,时时刻刻吸引你的眼球,你光看都看不过来,还想个什么呢!只要娱乐就好了。

现在,我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型。

两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有,对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。最后,我想谈一点,语言与视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思?就是说图象空间,语言空间,就是一个大集合,全集。我们的每个概念往往是它的一个子集,比如说,所有的图象是一个集合,一百万个象素就是一百万维空间,每张图像就是这百万维空间的一个点。人脸是个概念,所有的人脸就是在这一百万维空间的一个子集,但是这个子集和其它个子集要发生关系,这个关系叫拓扑关系。计算机的人把它叫做语法,对应于代数拓扑。比如,头和脖子在肩膀上是合规的,概率很高。这个图像空间的结构其实就是语法,这个语法就是STC-AOG,时空因果的与或图。语法可导出“语言”,语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达,而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它,语言肯定用它,认知是它,机器人任务规划也是它。这就是一个统一的表达。

 

第八节 博弈伦理:获取、共享人类的价值观

机器人要与人交流,它必须懂得人类价值观。哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent),他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化。与此对应的是非理性的人。对于理性的人,你通过观察他的行为和选择,就可以反向推理、学习、估算他的价值观。我们暂时排除他有可能故意假装、迷惑我们的情况。

这个价值观我们把它表达为一个利益函数Utility function,用一个符号U表示。它通常包含两部分:(1)Loss损失函数,或者Reward奖励函数;(2)Cost消费函数。就是说,你做一件事得到多少利益,花费多少成本。我们可以把这个利益函数定义在流态的(fluents)空间里面。我们每次行动,改变某些流态,从而在U定义的空间中向上走,也就是“升值”。由函数U对流态向量F求微分的话,就得到一个“场”。

复习一下高等数学,我们假设一个人在某个时期,他的价值取向不是矛盾的。比如,如果他认为A比B好,B比C好,然后C比A好,那就循环了,价值观就不自恰。这在场论中就是一个“漩涡”。一个处处“无旋”的场,就叫做一个保守场。其对于的价值观U就是一个势能函数。

所谓“人往高处走、水往低处流”说的是社会和物理的两个不同现象,本质完全一致。就是人和水都在按照各自的势能函数在运动!那么驱动人的势能函数是什么呢?

人与人的价值不同,就算同一个人,价值观也在改变。本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观。比如说把房间收拾干净了,这是我们的共识。

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)。然后,我统计一下学生进来以后,他喜欢坐哪个椅子,实在不行可以坐地上。这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序,见上面的统计图。我观察了这些人的选择,就问:为什么这个椅子比那个椅子好?是什么好?这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍:很普通的日常现象,蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了,就不去问这个问题了。

为了解答问题,我的两个博士生朱毅鑫和搞物理和图形学的蒋凡夫(他刚刚去Upenn宾州大学当助理教授),用图形学的物理人体模型模拟人的各种的姿势,然后计算出这些坐姿在这些椅子上的时候,身体几大部件的受力分布图。见下图,比如背部、臀部、头部受多少力。

下图中蓝色的直方图显示了六个身体部位的受力分别图。由此我们就可以推算出每个维度的价值函数。下面图中六条红色的曲线是负的价值函数,当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”,也就是坐得“舒服”。当然每个人可能不一样,有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么,如果你观察到有些异样,可以推导这个人某地方可能受伤了。

读到这里,你不禁要问:这不是与物理的势能函数,如重力场,一样吗?对,就是一个道理。这也是在最后一节我将要说的:达尔文与牛顿的理论体系要统一。

这对我们是常识,但是机器人必须计算出很多这样的常识,TA需要设身处地为人着想,这个就不容易了。

叠衣服也是我们做的另外一个例子。如果我们把这个保守的势能函数可视化为一个地形图,那么你叠一个衣服的过程,就像走一条登山的路径。这个衣服我们原来搞乱了,它对应的状态在谷底,最后叠好了就等于上到山顶了。每一步动作就有一个奖励reward。我根据你叠衣服的过程,把这山形状基本画出来,机器就知道叠衣服这个任务的本质是什么。你给它新的衣服,它也会叠了。机器人可以判断你的价值观。

最近大家谈论较多的是机器人下棋,特别是下围棋,的确刺激了国人的神经。下棋程序里面一个关键就是学习价值函数,就是每一个可能的棋局,它要有一个正确的价值判断。最近,各种游戏、和增强学习也比较火热。但这些研究都是在简单的符号空间里面玩。我实验室做的这两个例子是在真实世界,学习人的价值函数。

有了价值函数,在一个多人环境中,就有了竞争与合作,形成我们上一节谈到的社会规范、伦理道德。这些伦理、社会规范就是人群在竞争合作之中,受到外部物理环境与因果限制下,达成的暂时的准平衡态。每种平衡态不见得是一个固定的规则,要求大家做同样的规定动作,而是一种概率的“行为的语法”。规则其实就是语法。说到底,这还是一种概率的时空因果与或图STC-AOG的表达。

在社会进化过程中,由于某些边界条件的改变(如新的技术发明,像互联网、人工智能)或者是政策改变(如改革开放),打破了旧的平衡,社会急剧变化;然后,达成新的准平衡态。那么社会规范对应的是另一个时空因果与或图STC-AOG。你拿着一个准平衡态的STC-AOG模型去到另一个准平衡态生活,就出现所谓的“水土不服”现象。

谈到这里,我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning。我们通过观察大量数据样本,这些样本就是对某个时期、某个地域、某个人群达成的准平衡态的观察。也是我前面谈过的千年文化的形成与传承。归纳学习的结果就是一个时空因果的概率模型,我把它表达为STC-AOG。每个时空的动作是一个STC-PG,解译图。

二、演绎学习 Deductive learning。这个东西文献中很少,也就是从价值函数(还有物理因果)出发,直接推导出这些准平衡态,在我看来,这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解。比如,诸葛亮到了祁山,先查看地形,知道自己的队伍、粮草情况,摸清楚对手司马懿的情况(包括性格)。然后,他脑袋里面推演,就知道怎么布局了。

人的学习往往是两者的结合。年轻的时候,归纳学习用得多一些,演绎学习往往是一种不成熟冲动,交点学费,但也可能发现了新天地。到了“五十而不惑”的时候,价值观成型了,价值观覆盖的空间也基本齐全了,那么基本上就用演绎学习。

AlphaGo先是通过归纳学习,学习人类大量棋局;然后,最近它就完全是演绎学习了。AlphaGo的棋局空间与人类生存的空间复杂度还是没法比的。而且,它不用考虑因果关系,一步棋下下去,那是确定的。人的每个动作的结果都有很多不确定因素,所以要困难得多。

 

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务,还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了,就用市面上提供的通用机器人平台。

前面介绍过,人和机器人要执行任务,把任务分解成一连串的动作,而每个动作都是要改变环境中的流态。

我把流态分作两大类:

(1)物理流态 (Physical Fluents):如下图左边,刷漆、烧开水、拖地板、切菜。

(2)社会流态 (Social Fluents): 如下图右边,吃、喝、 追逐、搀扶,是改变自己内部生物状态、或者是与别人的关系。

当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成的过程),它就带着功利和任务的眼光来看这个场景。如下图所示,哪个地方可以站,哪个地方可以坐,哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作。这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么?

有了这些单个基本任务的地图,机器人就可以做任务的规划。这个规划本身就是一个层次化的表达。文献中有多种方法,我还是把它统一称作一种STC-PG。这个过程,其实相当复杂,因为它一边做,一边还要不断看和更新场景的模型。因为我前面介绍过,对环境三维形状的计算精度是根据任务需要来决定的,也就是Task-Centered视觉表达。

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多,它就越成熟,做事就得体、不莽莽撞撞。

我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人。

下面,我就简单介绍几个我实验室得到的初步演示结果,后台没有遥控的人。我实验室用的是一个通用的Baxter机器人,配上一个万向移动的底座和两个抓手(grippers),还有一些传感器、摄像头等。两个抓手是不同的,左手力道大,右手灵活。很有意思的是,如果你观察过龙虾等动物,它的两个钳子也是不同的,一个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作,比如握手。握手看似平常,其实非常微妙。但你走过去跟一个人握手的过程中,你其实需要多次判断对方的意图;否则,会出现尴尬局面。舒的论文在美国这边媒体都报道过。

下面这个组图是机器人完成一个综合的任务。首先它听到有人去敲门,推断有人要进来,它就去开门。其次,它看到这个人手上拿个蛋糕盒子,双手被占了,所以需要帮助。通过对话,它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)。这个人坐下来后,他有一个动作是抓可乐罐,摇了摇,放下来。它必须推断这个人要喝水,而可乐罐是空的(不可见的流态)。假设它知道有可乐在冰箱,它后面就开冰箱门拿可乐,然后递给人。

当然,这个是受限环境,要能够把样的功能做成任意一个场景的话,那就基本能接近我们前面提到的可敬的乌鸦了。我们还在努力中!

 

第十节 机器学习:学习的极限和“停机问题”

前面谈的五个领域,属于各个层面上的“问题领域”,叫Domains。我们努力把这些问题放在一个框架中来思考,寻求一个统一的表达与算法。而最后要介绍的机器学习,是研究解决“方法领域”(Methods),研究如何去拟合、获取上面的那些知识。打个比方,那五个领域就像是五种钉子,机器学习是研究锤子,希望去把那些钉子锤进去。深度学习就像一把比较好用的锤子。当然,五大领域里面的人也发明了很多锤子。只不过最近这几年深度学习这把锤子比较流行。

网上关于机器学习的讨论很多,我这里就提出一个基本问题,与大家探讨:学习的极限与“停机问题”。

大家都知道,计算机科学里面有一个著名的图灵停机Halting问题,就是判断图灵机在计算过程中是否会停下了。我提出一个学习的停机问题:学习应该是一个连续交流与通讯的过程,这个交流过程是基于我们的认知构架的。那么,在什么条件下,学习过程会终止呢?当学习过程终止了,系统也就达到了极限。比如,有的人早早就决定不学习了。

首先,到底什么是学习?

当前大家做的机器学习,其实是一个很狭义的定义,不代表整个的学习过程。见下图。 它就包含三步:

(1)你定义一个损失函数loss function 记作u,代表一个小任务,比如人脸识别,对了就奖励1,错了就是-1。

(2)你选择一个模型,比如一个10-层的神经网络,它带有几亿个参数theta,需要通过数据来拟合。

(3)你拿到大量数据,这里假设有人给你准备了标注的数据,然后就开始拟合参数了。

这个过程没有因果,没有机器人行动,是纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类。

其实真正的学习是一个交互的过程。 就像孔子与学生的对话,我们教学生也是这样一个过程。 学生可以问老师,老师问学生,共同思考,是一种平等交流,而不是通过大量题海、填鸭式的训练。坦白说,我虽然是教授,现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的(第六节讲过的构架)。我把这种广义的学习称作通讯学习Communicative Learning,见下图。

这个图里面是两个人A与B的交流,一个是老师,一个是学生,完全是对等的结构,体现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind,它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界,也就是“上帝”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识。

这个通讯学习的构架里面,就包含了大量的学习模式,包括以下七种学习模式(每种学习模式其实对应与图中的某个或者几个箭头),这里面还有很多模式可以开发出来。

  1. 被动统计学习passive statistical learning:上面刚刚谈到的、当前最流行的学习模式,用大数据拟合模型。
  2. 主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过。
  3. 算法教学algorithmic teaching:老师主动跟踪学生的进展和能力,然后,设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。
  4. 演示学习learning from demonstration:这是机器人学科里面常用的,就是手把手叫机器人做动作。一个变种是模仿学习immitation learning。
  5. 感知因果学习perceptual causality:这是我发明的一种,就是通过观察别人行为的因果,而不需要去做实验验证,学习出来的因果模型,这在人类认知中十分普遍。
  6. 因果学习causal learning:通过动手实验, 控制其它变量, 而得到更可靠的因果模型, 科学实验往往属于这一类。
  7. 增强学习reinforcement learning:就是去学习决策函数与价值函数的一种方法。

我在第一节谈到过,深度学习只是这个广义学习构架里面很小的一部分,而学习又是人工智能里面一个领域。所以,把深度学习等同于人工智能,真的是坐井观天、以管窥豹。

其次,学习的极限是什么?停机条件是什么? 

对于被动的统计学习,文献中有很多关于样本数量或者错误率的上限。这里我所说的学习的极限就远远超越了那些定义。我是指这个广义的学习过程能否收敛?收敛到哪?学习的停机问题,就是这个学习过程怎么终止的问题。就这些问题,我和吴英年正在写一个综述文章。

我们学习、谈话的过程,其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下。

  1. 教与学的动机:老师要去交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事。同理,学生去问老师,他也必须意识到自己不知道,而这个老师知道。那么,一个关键是,双方对自己和对方有一个准确的估计。
  2. 教与学的方法:如果老师准确知道学生的进度,就可以准确地提供新知识,而非重复。这在algorithmic learning 和 perceptual causality里面很明显。
  3. 智商问题:如何去测量一个机器的智商?很多动物,有些概念你怎么教都教不会。
  4. 价值函数:如果你对某些知识不感兴趣,那肯定不想学。价值观相左的人,那根本都无法交流,更别谈相互倾听、学习了。比如微信群里面有的人就待不了,退群了,因为他跟你不一样,收敛不到一起去,最后同一个群的人收敛到一起去了,互相增强。这在某种程度上造成了社会的分裂。

这个学习条件的设定条件不同,人们学习肯定不会收敛到同一个地方。中国14亿人,有14亿个不同的脑模型,这14亿人中间,局部又有一些共识,也就是共享的模型。

我说的停机问题,就是这个动态过程中所达成的各种平衡态。

第十一节  总结:智能科学 — 牛顿与达尔文理论体系的统一

到此,我摘要介绍了人工智能这六大领域的一些前沿问题,希望帮助大家看到一个大致的轮廓与脉络,在我眼中,它们在一个共同的认知构架下正在走向统一。其中有很多激动人心的前沿课题,等待年轻人去探索。

那么人工智能这六大领域、或者叫“战国六雄”,如何从当前闹哄哄的工程实践,成为一门成熟的科学体系呢?从人工智能Artificial Intelligence变成 智能科学Science of Intelligence,或者叫 Intelligence Science,这个统一的科学体系应该是什么?

什么叫科学?物理学是迄今为止发展最为完善的一门科学,我们可以借鉴物理学发展的历史。我自己特别喜欢物理学,1986年报考中科大的时候,我填写的志愿就是近代物理(4系)。填完志愿以后,我就回乡下去了。我哥哥当时是市里的干部,他去高中查看我的志愿,一看报的是物理,只怕将来不好找工作,他就给我改报计算机。当时我们都没见过计算机,他也没跟我商量,所以我是误打误撞进了这个新兴的专业,但心里总是念念不忘物理学之美。

等到开学,上《力学概论》的课,教材是当时常务副校长夫妇写的,我这里就不提名字了,大家都知道,这是科大那一代人心中永恒的记忆。翻开书的第一页,我就被绪论的文字震撼了。下面是一个截图,划了重点两句话,讨论如下。

 

(1)物理学的发展就是一部追求物理世界的统一的历史。第一次大的统一就是牛顿的经典力学, 通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系,从此也坚定了大家的信念:

“物理世界存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力。

这完全是一个信念,你相信了,就为此努力!自牛顿以来,300多年了,物理学家还在奋斗,逐步发现了一个美妙的宇宙模型。

相比于物理学,可叹的是,人工智能的研究,到目前为止,极少关注这个科学的问题。顶级的工程学院也不教这个事情,大家忙着教一些技能。解决一些小问题,日子就能过得红红火火。80年代有些知名教授公开讲智能现象那么复杂,根本不可能有统一的解释,更可能是“a bag of tricks”一麻袋的诡计。有一些“兵来将挡、水来土掩”的工程法则就行了。这当然是肤浅和短视的。

我的博士导师Mumford1980年代从纯数学转来学习、研究人工智能,他的理想是为智能构建一个数学体系(mathematics of intelligence)。以他的身份做这种转变是极其不容易的(他有很多吓人的头衔,包括菲尔兹奖、麦克阿瑟天才奖、国际数学家协会主席、美国国家科学勋章), 而我到目前还没有见过第二个这么转型的大家。 1991年我读完大学,申请研究生院的个人陈述(Statement of Purpose)中就懵懵懂懂地提出要探索这样一种统一框架。当时也没有互联网,我也没有听说过Mumford。记得当时科大计算机系刚刚有了第一台激光打印机,替代针式打印。我买了两包“佛子岭”香烟给管机房的师兄,让他一定要帮我把这三页纸的个人陈述好好排版、打印出来!结果,大部分学校都拒绝了我的申请,而我导师把我录取到哈佛读博士。同一年, 科大计算机系一个师弟吴英年被录取到哈佛统计学读博,我们就成了室友。他对物理和统计的理解十分深刻,过去25年我们一直在一起合作。现在回头看,人生何其幸哉!

(2)物理学把生物的意志排除在研究之外,而这正好是智能科学要研究的对象。智能科学要研究的是一个物理与生物混合的复杂系统。智能作为一种现象,就表现在个体与自然、社会群体的相互作用和行为过程中。我个人相信这些行为和现象必然有统一的力、相互作用、基本元素来描述。其实这些概念对我们搞计算机视觉的人来说一点也不陌生。我们的模型与物理模型是完全相通的,当你有一个概率分布,你就有了“势能函数”,就有了各种“相互作用”, 然后就有了各种“场”与“力”。

这些问题放在以前是没有数据来做研究的,就像爱因斯坦讲的“…不过是一个大胆的奢望,一个哲学学派成问题的理想而已”。而现在可以了,我前面已经给出了一些例子: 砸核桃、坐椅子、叠衣服。我们可以从数据中推算各种相互作用的力,用于解释人的各种行为。最近,我有两个学生谢丹和舒天民就用“社会的力和场”来解释人的相互作用, 舒还拿了2017年国际认知学会的一个“计算建模奖”。 我们以后会写文章介绍这方面的工作。

智能科学的复杂之处在于:

  1. 物理学面对的是一个客观的世界,当这个客观世界映射到每个人脑中, 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)。这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计。 由这些模型来驱动人的运动、行为。
  2. 物理学可以把各种现象隔离出来研究,而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心理活动,很难隔离开。况且,当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究,那在他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上,他们就“强烈拒绝”,要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养。呜呼哀哉!

回到前面乌鸦的例子,我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:

一、智能物种与生俱来的任务与价值链条。这是生物进化的“刚需”,动物的行为都是被各种任务驱动的,任务由价值函数决定,而后者是进化论中的phenotype landscape,通俗地说就是进化的适者生存。达尔文进化论中提出来进化这个概念,但没有给出数学描述。后来大家发现,基因突变其实就是物种在这个进化的、大时间尺度上的价值函数中的行动action。我前面那个叠衣服的价值函数地形图,就是从生物学借来的。

二、物理环境客观的现实与因果链条。这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西。

说到底,人工智能要变成智能科学,它本质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会,顺便参观了伦敦的Westminster Abbey 大教堂。 让我惊讶的是:牛顿(1642-1727)与达尔文(1809-1882)两人的墓穴相距也就2-3米远。站在那个地点,我当时十分感慨。 这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人,但是他们伟大的理论体系和思想的统一,还要等多久呢?

这篇长文的成稿正好是深秋,让我想起唐代诗人刘禹锡的《秋词》,很能说明科研的一种境界,与大家共赏:

“自古逢秋悲寂寥,我言秋日胜春朝。

晴空一鹤排云上,便引诗情到碧霄。”

 

附录

中科院自动化研究所举办的《人工智能前沿讲习班—人机交互》报告的互动记录(修改整理版)。

时间:2017年9月24日上午

主持人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)。

朱 开场白

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天,非常不好意思,耽误大家休息时间。我知道大家平时都很忙,你们坚持听到最后一讲,非常不容易。所以,我给你们带来一点干货,作为“精神补偿”。

今天的讲座是个命题作文,王老师要我谈人机交互。到底什么是人机交互,它要解决哪些问题?我就花了一周时间整理了一个比较长的讲座,给大家介绍人工智能的发展,和人机交互的体系结构。这个问题非常大,而且研究工作刚刚起步,大家需要把很多问题放在一起看、才能看出大致的轮廓。我给大家提一个思路,启发大家思考,我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利。

2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章,讲到做学问的一个理想境界就是“清风明月”,也就是夜深人静的时候,你去科学前沿探索真理。今天的讲座,希望把大家带到这么一个空旷的地方,去领略一番。

报告后的提问互动

提问一:朱老师,机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人,门口有个人他要进来,Ta怎么知道自己后退把路给让出来?

:自我意识这个问题非常重要。我先简要介绍一下背景,再回答你的问题。

自我意识(self-awareness,consciousness)在心理学领域争议很大,以至于认知学会一度不鼓励大家去谈这个问题,这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈,但是,还不落地。自我意识包括几点:

(1)感知体验。我们花钱去看电影、坐过山车、旅游,其实买的就是一种体验。这种体验是一种比较低层次的自我意识,形成一种表达(可以是我上面讲到的解译图)。 事后你也可以回味。

(2)运动体验。我们虽然有镜子,可是除了舞蹈人员,大家并没有看到自己的行为动作。但是, 我们对自己的体态和动作是有认知的。我们时刻知道我们的体态和三维动作。比如,心理学实验,把你和一群人(熟悉和不熟悉的都有)的动作步态用几个关节点做运动捕捉,记录下来,然后,就把这些点放给你看,你只看到点的运动,看不到其它信息。你认出哪个人是你自己的比率高于认出别人,而且对视角不那么敏感。所以,我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的,往往得益于镜像神经元(mirror neurons)。这是内部表达的一个关键转换机制。

机器人在这方面就比较容易实现,它有自己的三维模型,关节有传感器,又有Visualodometry, 可随时更新自己在场景中的三维位置和形态。这一点不难。

(3)自知之明。中国有个俗语叫做“人贵有自知之明”。换句话说,一般人很难有自知之明。对自己能力的认识,不要手高眼低、或者眼高手低。而且这种认识是要随时更新的。比如,喝酒后不能开车,灯光暗的时候我的物体识别能力就不那么强,就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实,这个相当复杂了。

比如,机器人进到日本福岛救灾场景,核辐射随时就在损害机器人的各种能力。突然,哪一条线路不通了,一个关节运动受限了,一块内存被破坏了。它必须自己知道,而后重新调整自己的任务规划。目前人工智能要做到这一点,非常难。

刚才说的人进来、机器人知道往后退,那就是一个协调动作的规划。你规划动作、首先要知道对方是什么动作。比如,人与人握手就其实是非常复杂的互动过程。为了达成这个目标,你要在脑内做模拟simulate。

提问二:谢谢朱教授,感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难,像您说的交互他还要去理解对方那个人的想法,这种信息他怎么来获取呢?也是通过学习还是? 

:靠观察与实践。你看别人做事你就观察到,你就能够学到每个人都不一样的价值函数,你就了解到你周围的同事,比如你们共享一个办公室,或者观察你家庭里面的人,你跟他生活的时间越长,你就越来越多的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了。除了观察,还有实践,就是去试探、考验对方。夫妻之间,刚结婚会吵架,之后越吵越少了、和谐了,价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛,那就分道扬镳,到民政局办手续。这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了,要么心领神会、心照不宣;要么充耳不闻、形同陌路。

提问三:他也是通过他自己观察到,它里面建立一个图吗?一个解译图(parse graph)吗?

:在我看来是这样的。就是我必须把你脑袋里面的很多结构尽量重构出来,表达层面就是解译图,至于人脑如何在神经元层面存储这个解译图,我们不清楚。人脑肯定有类似的表达,我脑袋里面有你的表达后,我就可以装或者演你的对各种情况的反应。

文学作家创作的时候,他脑袋里面同时要装下几十、上百号人的模型和知识表达,那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐。表演艺术家在这方面能力肯定也特别强。

提问四:像我们刚接触机器学习,你有没有什么推荐的,因为现在大家都在追踪训练深度网络,有没有一个推荐的,就是概率模型还是什么东西,一个数学理论或者一个数学工具。  

:我的想法是这样的,首先让大家端正思想,就是你想学,探索真理和未知。就是说在夜深人静的时候你探索真理,等你心境沉静下来,你自然就看到一些别人忽略的东西。不要让我推荐某个工具、代码、秘籍,拿来就用。我今天讲的东西都不是来源于某一个理论、工具,是融会贯通后的结果。

我反复告诫学生们,做科学研究不是过去那种到北京天桥看把戏,哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”,科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找,但是很可能钥匙不在那个灯底下。

提问五:朱老师好,非常庆幸来听这个报告,我最后一个问题很简单。您说那几个时期,我想问一下秦朝到底什么时候能到?到秦朝的时候,数学的哪一块你认为,可能会被用做秦朝的武器或者最厉害的那个武器是什么。

:问得很好。什么时候会达到统一?这个事情中国有两个说法,都有道理。

一种说法叫做“望山跑死马”。你远远望见前面那个山快到了,你策马前行,可是马跑死都到不了,中间可能还有几条河拦住去路。那是我们对这个事情估计不足。

第二个说法是“远在天边,近在眼前”。 能不能到达,决定于你这边的人的智慧和行动。什么时候统一、谁来统一,这决定于我们自己努力了。春秋和战国时期,思想家是最多的,诸子百家全部都出来了,那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞,我还有些问题想不通。

我们现在谈这个事情和框架,你觉得世界上有多少人在做?我的观察是:极少,也许一只手就可以数得过来。

你的第二个问题,如果要统一,那最厉害的数学工具是什么?我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合。我们看看物理学是如何统一的,他们里面各种模型(四大类的力与相互作用)必须融洽,然后解释各种现象。简单说我们需要搞清楚两点:

一、什么地方用什么模型? 对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似,各种模型有它们的范围和基础,比如我们常常听说的,吉布斯模型往往就在高熵区,稀疏模型在低熵区,与或图语法用在中熵区。这一块除了我的实验室,世界上没有其他人研究。

二、这些模型之间如何转化? 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文,投到CVPR会议,结果,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题,眼睛都巴巴地看着数据集、性能提升了多少。刷榜成了CVPR科研的重要范式。在某些人眼中,刷榜成了唯一方式。我以前是批判这个风气,后来一想,其实应该多鼓励。我对那些把大众带到沟里去的学术领军人物,以前是批评,现在我特别感激Ta们。这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖,我都躲不开。我做研究喜欢清静,不去赶热闹,不去追求文章引用率这些指标。

王蕴红教授总结(整理):今天朱教授的报告,大家可以感觉到两点。

一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目,在很多层面上纵横交叉的线,他理得非常清楚、举重若轻,收发自如。非常幸运能听到这样的报告。

二、授人以渔而不是鱼。他讲的是如何去思考问题,如何去看世界,如何研究一些真正本质的东西。近几年深度学习被过多强调之后,有很多博士生还有一些研究者过于依赖工具,思考的能力被损坏了。其实研究的世界那么大,你一定要抬起头来看看,仰望星空。

 

鸣谢

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告。沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理出报告的中文初稿。假若没有他们的耐心、催促、鼓励和协助,这篇中文报告是不可能产生的。报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版。其绪论被摘录在文中。我的思想受到这本书的启蒙。

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究的长期支持

  • Nov 08 / 2017
  • 0
Ideas

锐眼发现 | 如何设计令人“上瘾”的产品

作者:陈智

转载于:微信公众号「网易UEDC」

 

Design is not just what it looks like and feels like. Design is how it works.  

— Steve Jobs

相关研究表明,人们平均每十分钟查看一次手机,平均每天点亮手机屏幕近80次,近1/3的手机用户使用时长超过4小时,是的,我们对手机上瘾了。一旦对于某事物上瘾成为一种行为习惯,并开始进行无意识的操作性条件反射,频繁的找手机、频繁的点亮屏幕,频繁的打开微信查看朋友圈……那么类似的着魔行为都是怎么形成的?以及能否被有效设计呢?

美国Charles Duhigg在《习惯的力量》一书中提出习惯养成步骤主要包括:暗示、惯常行为、奖赏。其中的惯常行为指的便是该行为具有可重复发生性,奖赏指的行为发生的过程中得到的正向奖励进一步强化了行为的再次发生。总的来说行为习惯养成的基本发生路径为:行为发生—行为奖励—行为重复发生—形成习惯。一旦进入习惯区间,行为将在情境暗示下自动循环发生。

美国尼尔·埃亚尔结合习惯养成与产品设计则创建了一套适用于各大互联网公司开发习惯养成类产品的上瘾四大步骤理论:触发—行动—多变的酬赏—投入,认为上瘾模型能够引导用户在不知不觉中依赖上你的产品,成为产品的忠实回头客。这意味着用户的行为是可以有效被设计和引导的,只要掌握了用户行为习惯形成的底层思维与行为模式特征,并可以通过界面和屏幕有效引导用户行为的发生。根据上瘾模型理论,要设计一款引导用户养成积极的行为习惯产品,重点在于以下三个方面的设计:

  • 行为说服,产品核心行为操作如何吸引用户发生
  • 行为奖励,行为发生过程中如何给予正向反馈强化行为
  • 用户投入,行为奖励后引导用户投入形成存储价值服务

1. 行为说服设计

行为说服在产品设计过程中主要指如何运用有效的设计手段引导用户行为的发生。斯坦福行为心理学教授Fogg表明人的行为发生影响因素由动机、能力、触发器三者,同时满足三个因素行为必然产生,缺乏其中任何一个因素,行为都不会发生。

动机

人的需求和动机对行为具有直接支配意义,动机水平越高越能触发行为发生的可能性。但动机并不是需求本身,也不是行为。需求存在是基础,而动机水平是影响行为发生非常重要的影响因素。比如我们平时存在吃水果的需求,但不见得我们每时每刻都会发生购买水果以及吃水果的行为。但是某天在下班回家的路上经过一家水果店,看到了正在降价的自己平时很喜欢吃的水果,于是产生了购买的动机。

从上可以看出动机伴随场景出现,设计的过程就是根据不同的场景运用不同的设计手段刺激和提升动机,比如水果店中买一送一的营销手段,“甜过初恋”的文案,以及具有视觉吸引力的鲜嫩多汁富含维生素的营养健康生活方式的设计海报等等各种富有创造力的形式就是设计参与提升购买动机的过程。Fogg教授表明人的基础动机因素是相对稳定的,主要包括以下三组:

  • 感觉:追求愉悦快乐的感觉;避免痛苦不悦
  • 期待:期待美好的一面;恐惧负面的结果
  • 归属感:追求社群认同和依赖;避免孤立

这意味着设计旨在如何提升与激发用户愉悦感、用各种形式让用户期待美好的结果并具有可实现性,同时让其感受社群融入等可大大提升动机水平,从而增强行为产生的可能性。或者展现其对立面,通过强化和传达出负向的感知,如产生痛苦,悲剧的后果,被社群孤立等同样能增强行为动机,使其产生避免负向结果的内在驱动力。

其中积极正向的感觉常见的有愉悦、惊喜、好奇心、正义感、满足感等,满足负向所带来的愉悦感诸如色欲、窥私癖、贪婪、虚荣心等。平时电商产品中常见的团购促销优惠,满额间,买一送一等均是为了提升购买动机,这也被称为利用人性的设计。行为说服设计首要目标就是利用设计的手段激发和提升内在的心理动机。

能力

能力在福克行为模型中主要指人达成目标行为的自身能力水平、行为是否容易执行、以及执行行为所需付出的成本。行为越容易或成本越低,即便动机水平不高,则行为产生的可能性依旧高。比如点击一下一下领取优惠券,即便优惠额度低,吸引力不够,但只要领取方式足够简单,免费领取,依旧会吸引不少用户产生点击领取行为。

因此在产品设计过程中,尽可能降低操作难度,提升易用性,就会极大地促进使用转化。而流程的易用与所需成本主要影响因素包括:

1)时间

指行为达成目标所需要的时间。尤其针移动端碎片化场景,产品功能操作和信息内容均应轻量化。比如学习类产品如果针对系统化的内容信息密集的课程为学习单位,则用户在时间层面的能力严重不足,产品自然难以提升用户活跃与打开率。

2)金钱

作为用户衡量自身行为能力感知较强烈的因素。在电商产品中常见的方式就是各种促销优惠活动策略。另外在金钱能力层面,设计者可以利用认知偏差减弱金钱敏感度,比如价格锚定效应、框架效应、心理账户等等认知偏差原理切换用户思维从而提升行为发生可能性。

3)认知理解/认知负荷

主要指信息内容对于用户理解与注意力缺失的负荷,设计需要深入用户不同场景了解用户认知能力进行设计。比如学习类应用在碎片化移动场景更倾向轻量化学习,而在特定时间段用户更倾向进行体系化深度学习需求。

4)生理/体力/易用性

老生常谈的设计原则,指的就是设计流程可用性和易用性,是否足够简单高效,易于操作。

5)社群趋同/社会认同

人作为群居动物具有社会群体依赖感和归属感的需求,并在自己的知觉、判断、认识上表现出符合于公众舆论或多数人的行为方式。设计中常见的如利用从众心理去提升人会认同,刺激行为。

6)与已有使用习惯冲突

行为具有习惯转移成本,因此设计中对于一些常见的功能和流程行为需要考虑进行习惯的迁移,而不是另辟蹊径设计完全创新的交互方式。

触发器

行为并非无故产生,尤其针对新手用户,在未形成习惯之前需要依赖外部提醒和刺激行为发生。因此触发器是行为发生的起点,主要包括外部触发提醒和内部自我驱使提醒。外部提醒在产品设计形式上主要包括手机短信、微信提醒、系统通知、弹窗提醒、邮件信息、好友分享等外部的触点,提醒引导了行为的产生。而内部自我提示主要在行为习惯区内在特定场景下自我触发行为提示,通常主要指已经建立了用户心智模型的阶段。比如当我们感到无聊或者孤单的时候打开微信朋友圈,当我们感觉焦虑的时候联想到知乎和得到,当我们有学习提升欲望时,联想到云课堂。

触发器在设计上主要承当行为发生的调节器,动机不足补动机,比如利用稀缺性饥饿营销,利用厌恶损失的限时优惠倒计时等等;能力不足补能力,比如营销优惠活动,降价提醒等;行为和动机均充足时,给予适当的信号提醒,如已关注的直播提醒等等。触发器设计需要兼顾合适的场景,合理的触发形式,不适当的触发提醒反而显得干扰,引发负向体验。

行为说服设计本质上是设计行为发生的影响因素,利用设计的手段强化其不同场景下的行为动机水平,简化核心操作流程的易用性和行为成本,并设计合理的行为触发机制去尽可能提升行为发生的可能性。

2. 行为奖励设计

上世纪五十年代早期,加拿大McGill大学的博士后James Olds和Peter Milner 进行了一项实验,他们将电极植入大鼠的脑部并放入斯金纳箱中,发现大鼠会主动寻求脑部愉悦中枢伏隔核的刺激,中枢神经的奖赏回路会释放令人感到兴奋的神经递质多巴胺,多巴胺的奖励机制是生物面对自然法则进化而来的本能,它会驱动个体付出行动。个体反复体验愉快感后形成强烈的渴求,于是构成上瘾的反应。这意味着当人作出某一行为决策后并在其过程中产生了好的结果,大脑会向负责决策的区域发送“奖赏”信号,促进提升认知能力,强化行为动作,并形成良性循环。

正因为人脑奖励系统对行为和习惯的形成起非常关键的作用,所以我们在产品设计过程中可以有效利用大脑奖励系统,给予用户操作行为正向的反馈,让用户感知行为有效性,能够促进用户行为得到强化,提升用户回访可能。人类的行动因为奖励而得到生理或者心理上的肯定,从而促使他们重复这种行为。

情感化设计

从行为心理学角度而言,人的行为决策并不完全趋于理性作出判定,其中情感因素起了非常关键的因素。情感化设计对于正向积极的情感的刺激,比如愉悦、满足、惊喜、有趣等可以有效刺激大脑奖励系统,从而驱使用户越过理性分析而发生行为。因此情感化设计是激活大脑奖励系统的有效手段。情感化设计并非脱离功能、技术、可用性而存在,更多的是在感性与理性、功能与情感之间找到平衡点,保证产品可用性和易用性的前提下进行情感价值的提升。

美心理学家,诺贝尔经济学奖得主丹尼尔-卡尔曼,经研究发现人的体验记忆并不是整个体验过程的总和,主要受高峰(无论是正向的还是负向的)时和结束时的感觉,体验过程中的好与不好的比重、时间长短对最终的主观体验记忆差不多没有影响。基于此体验记忆潜意识规律启发我们如何进行情感化设计奖励最大化:

  • 找出产品流程中关键节点并进行情感化设计
  • 强化流程结束的情感增值设计可以令用户体验记忆深刻
  • 针对负向峰值点进行优先设计,避免产品短板

奖励不确定性原则

大脑奖励系统跟人的审美一样,会有“喜新厌旧”,多巴胺神经元会对持续相同的熟悉的奖励反应减少。给产品附加无穷的多变性则有助于人们保持持久的兴趣,较常见的有游戏产品中普遍带有不确定性的,高频次、花样百出的成长与奖励机制极大地刺激玩家沉溺游戏。比如魔兽世界这个风靡全球的大型多人角色扮演类网络游戏,主要强调团队作战,而团队成员的不确定组合与不确定性表现被视作不可预知的因素,这正是其经久不衰的魅力所在。 有研究表明,游戏刺激大脑产生的多巴胺和使用苯丙胺(毒品)产生的一样多,所以好玩有趣的游戏总是让人轻易上瘾。

3. 用户投入设计

在产品使用习惯养成过程中,行为触发、行为发生和奖励能够改变当下即时行为,其中行为奖励虽然已起到强化行为促进下一次回访的可能性,但“用户投入”更能影响用户未来的行为。美研究学者在2011年针对劳动投入对于重视事物程度影响的研究结果表明,用户对于某件产品和某项服务所投入的时间和精力越多,对该产品就越重视。宜家让客户自行组装家具的模式让用户对自己的劳动组装的家具产生一种非理性的喜爱,这种被称为“宜家效应”的用户投入赋予了产品更高的价值,并让用户态度发生了变化。积极的态度变化则进一步强化与巩固行为的持续发生。

那么在产品设计过程中,我们如何有效设计引导用户投入?美国顶级风投公司Greylock在深度挖掘潜力创业团队独角兽所引用的用户参与度模型中关于如何提升用户留存以及产品中用户投入的方法经验方面给我们提供了两个非常不错的思路启发:累积优势和离开损失。

累积优势

累积优势指随着用户在产品中贡献的数据越来越多(不论是有意还是无意),产品都能基于这些数据持续改进用户体验。最后达到「使用产品越多,我的产品体验越好」的情况。比较典型的类似今日头条、网易云音乐、网易云课堂的个性化推荐服务,通过用户选取的兴趣标签进行角色建模,并持续对使用行为进行分析持续修正兴趣模型,使用越多,推荐内容越精准。不断提升的精准度对用户形成持续感知到的有用性,有用性则不停刺激强化大脑奖励系统,习惯在不知不觉中得以形成和巩固。

离开损失

离开损失主要指用户使用产品的时间越长,它越成为你的依赖、你的身份标识,或是你积累某种价值的地方。最后达到「使用产品越多,我要离开产品的损失就越大」的情况。比如天然的内容累积型笔记应用Evernote,投入越多个人内容,产品使用越稳定,越不容易离开。再比如微信的弃用成本之所以高,是因为我们已经在里面存储了高价值的人际关系。高离开损失的产品稳定性好,用户生命周期价值大。

总结

设计令人上瘾的产品主要指培养用户积极的产品使用习惯,其设计基本思路是利用人底层的思维模式与行为发生机制进行设计引导,从而有效掌控用户行为路径。最后总结下设计引导行为习惯养成需要进行行为说服设计、行为奖励设计、用户投入设计,其中说服设计引导行为发生、奖励设计强化行为、用户投入设计巩固行为稳定性,三个阶段相互促进,构成了设计上瘾产品的引擎和驱动。

延伸阅读

  • 福克行为模型 -BJ Fogg’s Behavior Model,http://behaviormodel.org/
  • 书籍:《Hooked-How to Build Habit-Forming Products》Nir Eyal,中文翻译版:《上瘾:让用户养成使用习惯的四大产品逻辑》尼尔·埃亚尔
  • The Hierarchy of Engagement – Sarah Tavel – Medium,中文翻译版:用户参与度模型 https://zhuanlan.zhihu.com/p/27671845
  • Nov 07 / 2017
  • 0
Ideas

锐眼洞察 | 2030年的生活图景(翻译)

本文为Global Future Councils年度会议的一部分。

作者:Mike Moradi, 联合创始人 & CEO, Sensulin

     Lin Yang, 创始人&院长, Innovation Ideas Institute (3i)

转载于:This is what life will be like in 2030

原文来自:www.weforum.org 

译者:TalkingData首席架构师 黄洋成(YC)

本译文禁止商用,转载请注明来源与译者!

  1-VuBFX7wmNrz8BqM9jAy75A

下一步……无人驾驶汽车、智能家庭和基因工程改造宠物。图片:REUTERS/Tyrone Siu

你刚刚在2030年的春天醒来。你的物联网卧室自动开启太阳能电子窗户,并播放舒缓的音乐,而智能照明则展示着你最近度假时拍摄的海滨日出图片集锦。

你的淋浴使用很少的水或肥皂,它回收灰水(注:生活用水中污染较轻可再次利用的水),并把多余的热量回收到家中的集成操作系统。 当你穿衣服时,你的人工智能(AI)助手会分享你的日程表,并播放你最喜欢的音乐。

你的一天仍然从咖啡开始,但它来自你的物联网冰箱,一个能在你家中提供专业咖啡店般体验的冰箱。 根据你的具体营养需求(基于你的“智能马桶”所做的化学分析)量身定制的热腾腾的早餐正在厨房等着你。

当你准备动身的时候,按需交通系统分别为你、你的配偶和你的孩子准备了三辆车。 在路上,无人驾驶的汽车和卡车将极其精确的运行,没有交通堵塞、例行维护或路怒症,事故率几乎为零。

0-vQgtyUkN-tNz0QKQ

途中,你打电话给你的研发团队,他们在上海正要结束一天的工作。你的等身大小的图像被投射到中国创新中心,就像你与你的同事共处一室一样。

看着晨光中的你对于上海的同事来说有点超现实的感觉,毕竟这时的上海外滩天色已暗。不过,几次之后这种感觉就会消除。 你可以通过云端查看来自深圳制造中心、圣地亚哥试点项目以及墨尔本QA团队的数据。

这些大量的数据集是从每一件设备实时收集的,并且已经被贵公司的AI精准优美地总结好。 所有这些设施都通过一个先进的预测分析平台进行严密维护和操作。

对团队的进展感到满意,你结束了通话,埋头看起了一本好书。 这是未来,而且它会比你想象的来得更快。

到2030年,下面这5种技术很可能会改变你的日常生活:

1. 告别你的屏幕:今天的虚拟现实头显被用于消费娱乐,但它们不仅笨重而且将人与外界隔离。 将来,光场显示器可能让人们无需使用头戴设备或显示器,而将4D图像直接投射到视网膜上。 这些设备最终可能会像太阳镜一样平常。 随着下一代“显示器”取代我们的电视、iPad和手机屏幕,3万亿美元规模的消费电子产业将重塑自我。曾被政客吹捧、吸收大量补贴并在一段时期内被证明有价值的制造业工作,最终会像其他过时的工作那样被历史进程淘汰。

0-ssFOwSCH4HZeCMOx
玩具虎猫(toyger) “Malo”。图片:Claudia Taal/Toyger Cat Club UK

2.向你的宠物“脆皮”问好:CRISPR(Continuous Regularly Interspersed Short Palindromic Repeats)是一个生物化学术语,意思是我们可以廉价并可靠地编辑基因。 今天,爱猫人士渴望异国情调的品种,比如玩具虎猫(Toyger,注:一种人工培育的拥有类似老虎条纹毛色的虎斑猫)。 明天,你的家庭宠物可能是一只经过基因工程改造的老虎,但只有普通家猫的大小。 即使监管机构禁止CRISPR技术用于人类,地下实验室也将在世界范围内蓬勃发展,因为父母总是想消除先天性遗传疾病或为孩子的学习和人生带来可以传承的优势,这将制造新的差异和特征。 当基因身份无法再被确认,犯罪和贩卖人口将会发展进入新一层的危险境地。

3.生物制造 – 人造器官和摩天大楼:随着细菌、藻类和其他细胞成为未来的工厂,基因工程的发展也许会引领未来最具破坏性的变化。 如果你想做素食者,但又无肉不欢,也许你也可以“吃素”,只吃不需要杀戮来生产的肉。 如今,Beyond Meat和Memphis Meats等公司正在完善无杀戮蛋白。 想象一下,用有益的欧米茄3脂肪酸代替胆固醇的牛排是不是吃起来会不再有负罪感。 明天,诸如汽车车架之类的产品可能由石墨烯和蜘蛛丝“编织”而成,而摩天大楼的框架结构是由大量微生物从地基岩床自动生长到云层,几乎不需要人为干预。

4.广告 – 必要之恶:必将还是由我们以定向广告的形式为这些变化买单。 你的通讯设备,或其他替代现有手机功能的设备,可能会是免费或大量补贴的。但是,你将无法跳过最新的沉浸式广告,除非付费。 你将前所未有的消息灵通,而广告商总会找到更聪明的方法来影响你的行为,比如运用也能监控你健康状况的生物识别技术。

5.可植入的时代:随着世界的变化,科学家们认为人类的大脑会不断地变大,我们的寿命将会越来越长,而我们的文化将会在对新环境的适应中继续演化和融合。 今天,你可以通过LASIK手术获得20/10的视力。明天,你将可以通过在视觉系统上植入红外变焦镜头来获得20/1的视力(鹰大约拥有20/5或20/4的视力)。 今天,我们的穿戴设备可以检测磁北极,并提供类似声呐的功能(用于帮助视障人士);明天,你将会拥有专属的“永远在线”的虚拟助理。 最终,我们的后代将会变得不可想象。

改变和选择

变化可能会像微风一样到来,也可能是一场残暴的5级台风。 拥抱变化的地区将进入一个繁荣的新时代。 他们将创造未来的工作。新的明星人物将会出现、新的行业巨头将会诞生。 那些不能接受改变的人将寸步难行。一些国家产生了敌对科学的本土运动,他们停留在上个世纪的斗争,揪着过去的错误不放。他们一边陷于债务、财政和政治瘫痪中,一边给科学强加政治性。预测这种行为的长期结果并不难,这些国家将任由他们的公民面对残酷的经济停滞。 你的国家会选择哪条路?

  • Nov 06 / 2017
  • 0
Ideas, News

锐眼发现 | 霍金:人类想继续下个100万年 须涉足无前人所及之处

转载自:http://tech.sina.com.cn/it/2017-11-05/doc-ifynnnsc6405435.shtml

 

qvie-fynnnsc6403722

11月5日下午消息,今日“2017腾讯WE大会”在京举办,剑桥大学物理学教授、著名宇宙学家史蒂芬-霍金教授(Stephen Hawking)做视频演讲。

在视频开始前,霍金首先提到了两个问题。首先,我们需要做什么才能够确保,在力所能及的范围内,人类的未来达到尽可能完美?其次,我们为什么要考虑探索其他宜居星球?

“在过去二百年中,人口增长率是指数级的,即每年人口以相同比例增长。目前这一数值约为1.9%。 这听起来可能不是很多,但它意味着,每四十年世界人口就会翻一番。这样的指数增长不能持续到下个千年。 到2600年,世界将拥挤得 “摩肩擦踵”,电力消耗将让地球变成“炽热”的火球。这是岌岌可危的。”

霍金表示相信我们可以避免这样的世界末日,而最好的方法就是移民到太空,探索人类在其他星球上生活的可能。就如同1492年的欧洲,探索新大陆对旧世界带来了深远的影响。人类向太空的拓展,甚至将会产生更深远的影响,这将彻底改变人类的未来,甚至会决定我们是否还有未来。

霍金提到,在其他条件适宜的星球上,生命的存在也必定是可能的。即使这种可能性极小,但宇宙是无限的,我们还是可以假设,生命会在某处出现。不过,如果概率很低,那么出现生命的两个星球间的距离,可能将异常遥远。

“星际航行必然是一个长期的目标。我所说的长期,是指未来二百到五百年。但是,还有另一种选择。去年,我与企业家尤里-米尔纳(Yuri Milner)一起,推出了长期研发计划——‘突破摄星’,目标是让星际旅行变成现实。如果成功,在座各位有些人的有生之年内,我们将向太阳系最近的星系——半人马座阿尔法星系发送一个探测器。”霍金表示,“突破摄星”是人类初步迈向外太空的真正机会,为了探索和考量移居太空的可能性。

  以下为霍金的演讲原文:

你好,北京!我是史蒂芬-霍金。欢迎来到腾讯WE大会。

我今天的演讲,是关于在宇宙这一背景下,地球和人类所扮演的角色。为了最好地阐述,我需要从两个维度出发,一是思考人类的未来,二是研究我们探索太空、寻求其他潜在宜居星球的选择。我今天的目的,是问大家两个问题。首先,我们需要做什么才能够确保,在力所能及的范围内,人类的未来达到尽可能完美?其次,我们为什么要考虑探索其他宜居星球?

一个原因是,对我们来说,地球变得太小了。在过去二百年中,人口增长率是指数级的,即每年人口以相同比例增长。目前这一数值约为1.9%。 这听起来可能不是很多,但它意味着,每四十年世界人口就会翻一番。 2022年,我将庆祝自己80岁的生日,而在我人生的这段历程中,世界人口比我出生时膨胀了四倍。

这样的指数增长不能持续到下个千年。 到2600年,世界将拥挤得 “摩肩擦踵”,电力消耗将让地球变成“炽热”的火球。这是岌岌可危的。然而我是个乐观主义者,我相信我们可以避免这样的世界末日,而最好的方法就是移民到太空,探索人类在其他星球上生活的可能。

但是理由充分吗?难道留在地球上不是更好? 在某种程度上,今天的情况就如同1492年前的欧洲。当时的人们很可能坚信,哥伦布的探险注定是徒劳无功。 然而,新世界的发现,对旧世界带来了深远的影响。对于那些被剥夺权利地位、走投无路的人来说,新世界成为了他们的乌托邦。人类向太空的拓展,甚至将会产生更深远的影响,这将彻底改变人类的未来,甚至会决定我们是否还有未来。它不会解决地球上任何迫在眉睫的问题,但它将提供解决这些问题的全新视角,让我们着眼于更广的空间,而不是拘泥眼下。希望这能够让我们团结起来,面对共同的挑战。

当我们进入太空时,会有怎样的发现呢?会找到外星生命,还是发现我们终将在宇宙中踽踽独行?我们相信,生命在地球上是自然而生的,是在漫长的进化后,实现了与地球资源的高度契合。因此,在其他条件适宜的星球上,生命的存在也必定是可能的。即使这种可能性极小,但宇宙是无限的,我们还是可以假设,生命会在某处出现。不过,如果概率很低,那么出现生命的两个星球间的距离,可能将异常遥远。

在太阳系中,月球和火星是太空移民地最显而易见的选择。水星和金星太热,而木星和土星是巨大的气体星球,没有坚实的表面。火星的卫星非常小,并不比火星本身更优。木星和土星的一些卫星也存在可能。比如木星的卫星之一欧罗巴,它的表面是冰层,但其下可能会有液态水,也就可能会孕育生命。那么我们如何确定这种可能?是否必须登陆欧罗巴,然后钻一个洞?

星际航行必然是一个长期的目标。我所说的长期,是指未来二百到五百年。

但是,还有另一种选择。去年,我与企业家尤里-米尔纳(Yuri Milner)一起,推出了长期研发计划——“突破摄星”,目标是让星际旅行变成现实。如果成功,在座各位有些人的有生之年内,我们将向太阳系最近的星系——半人马座阿尔法星系发送一个探测器。

“突破摄星”是人类初步迈向外太空的真正机会,为了探索和考量移居太空的可能性。 这是一项概念验证的使命,其中涉及三个概念:迷你太空飞行器、 光动力推进和锁相激光器。“星芯片”是尺寸被缩小到仅几厘米、但功能完备的太空探测器,它将附着于“光帆”上。“光帆”由超材料制成,重量仅有几克。我们设想,一千个由 “星芯片”和 “光帆”组成的纳米飞行器将被送入轨道。 在地面上,激光器阵列将共同形成一道超强光束,光束穿过大气,以数十吉瓦的功率射向太空中的“光帆”。

这项创新背后的想法,是以光束来驱动纳米飞行器的前进。这样产生的速度虽然不及光速,但也能达到其五分之一,约合每小时1亿英里。这样的系统可以在一小时内抵达火星,几天内到达冥王星,一周内就可以追上并超过旅行者号探测器,并在仅二十年后到达半人马座阿尔法星系。重要的是,“星芯片”的轨迹可能包括“比邻星b”,这颗位于半人马座阿尔法星宜居带的行星,与地球的大小类似。正是在今年,“突破摄星”与欧洲南方天文台携手合作,进一步探寻半人马座阿尔法星系的宜居行星。

目前看来,这些都可能成为现实。但我们也看到重大的挑战。1吉瓦功率的激光器仅能提供几牛顿的推力,不过因为纳米飞行器因为只有几克重量,恰恰可以克服这个问题。但是工程方面的挑战是巨大的。纳米飞行器必须经受极限加速、极寒、真空和质子,以及与太空粉尘等垃圾的碰撞。另外,由于大气湍流,将一套总量100吉瓦功率的激光组瞄准太阳帆,也是很困难的事情。

还有一些严峻的问题。如何让数百道激光穿过大气波动时聚合,如何推动纳米飞行器又不烧毁它们,如何让它们瞄准正确的方向?此外,我们还需要让纳米飞行器在冰冷的真空环境中工作二十年,这样它们才能将信号传回到四光年外的地球。然而这些都是工程设计要解决的问题,而工程挑战往往最终都会被解决。随着技术进步日趋成熟,我们可以展望更多令人兴奋的使命。如果“突破摄星”计划能传回毗邻星系中宜居星球的图像,这对人类的未来必将产生深远影响。

希望我已经解答了我演讲一开始所提出的问题。人类作为独立的物种,已经存在了大约二百万年。我们的文明始于约一万年前,其发展一直在稳步加速。如果人类想要延续下一个一百万年,我们就必须大胆前行,涉足无前人所及之处!

感谢大家的聆听。

 

  • Oct 31 / 2017
  • 0
Ideas, Tech

锐眼发现 | 后ICO时代:理性看待金融区块链的应用场景与监管底线

作者:史广龙

转载自:腾讯研究院金融研究中心

 

电子货币伴随区块链技术的快速发展,引发了各国监管者对于数字货币的关注,同时,随着区块链技术在金融行业的迅速推广,监管层面如何应对这一态势也成为各方关注的热点问题。

一、监管与治理:电子现金系统的发展瓶颈与区块链应用场景的嬗变与创新

(一)数字加密货币背后的电子现金系统陷入瓶颈

数字加密货币形成的点对点电子现金系统扩张步伐,在经历野蛮扩张之后,近期逐步陷入停滞。从根本上说,这是因为数字加密货币的发展与中央银行功能的发挥发生冲突,触及了金融监管的底线。 具体而言主要集中在以下三个方面:

一是影响物价稳定。数字加密货币的不断增长,实质上增加了货币供应的数量,将影响货币周转速度、现金的使用以及调节货币流动总量机制,可能对实体经济产生一定的替代效应。

二是影响金融稳定。数字加密货币游离在银行系统之外,它只有交换价值,没有使用价值。数字加密货币没有最后贷款人的支持,它的影响力取决于活跃使用者的数量与愿意接受的商家数量,网络规模决定货币价值。随着数字加密货币与现实世界联系的增强,可能成为潜在的不稳定因素。

三是影响支付系统稳定。数字加密货币面临信用风险、流动性风险、经营风险、法律风险,可能冲击现有支付系统的稳定。

有鉴于此,主要国家的中央银行均对非法定数字加密货币采取了相对谨慎的态度,纷纷否定其法币地位,甚至采取一定的限制措施。监管的介入直接导致非法定数字加密货币使用规模的扩张进入瓶颈期。

同时,各国中央银行开始探讨甚至实施法定数字加密货币的发展计划。 2015年厄瓜多尔率先推出法定数字加密货币,希冀能减少发行成本及增加便利性,让偏远地区无法拥有银行资源的民众也能通过数字化平台,获得金融服务。突尼斯也根据区块链的技术发行法定数字加密货币,除了让国民通过数字货币买卖商品,还能缴付水电费账单等,结合区块链分布式账本的特性,将交易纪录记载于区块链中,方便管理。在部分主权国家范围内,出现了法定加密数字货币逐步替代比特币的趋势。

(二)区块链在跨境支付结算领域可能形成突破

当前跨境支付结算格局的形成与中央银行的权力边界密切相关。中央银行只能在主权国家的范围内行使权力。跨境支付至少涉及两个以上的主权国家,除非基于主权国家间的协议,中央银行对于支付结算系统的规划,难以延展至境外。由于支付结算系统涉及主权国家的金融安全,全球范围内的公约始终无法订立。跨境支付结算企业只能基于各国碎片化的监管规则,在各国中央银行等金融监管机构容许的范围内开展业务。 这导致当前跨国支付结算机制存在以下明显缺陷:

一是操作成本和费用高昂。 跨国支付结算依赖于各国银行的广泛参与,价值链条上涉及的节点多,导致多次收费。同时,在这一价值链条上,各国银行彼此之间不存在直接竞争,造成跨境支付结算费用高昂。

二是安全性和便利性差。 跨境支付清算依赖各国当地银行的参与,支付方必须准确无误的填写银行账户和汇款路径代码,并且只有在银行工作时间才能实际处理交易,严重影响了金融机构的客户体验。

三是结算流程缓慢而效率低。 支付结算流程涉及包括各国参与银行在内的多个主体,整个链条上任何一方的拖延,都可能降低支付结算效率,导致在途资金占用量大,影响金融机构客户的资金使用效率。

将区块链技术应用于跨境支付结算,通过智能合约直接连通付款方银行与接收方银行,就能够绕过中转银行,减少中转费用支出,不但可以实现全天候支付、实时到账,而且带来了提现简便,消灭了大量隐性成本,有助于降低跨境支付结算风险及满足跨境对跨境支付结算服务及时性、便捷性的需求。根据麦肯锡的测算,从全球范围看,区块链技术在B2B跨境支付与结算业务中的应用将可使每笔交易成本从约26美元下降到15美元。

(三)金融行业应用区块链技术的场景创新

各国监管者虽然对非法定加密数字货币持非常明确的保留或者负面态度,但是并没有限制区块链技术在支付和其它金融领域的应用。这为传统支付机构运用区块链技术进一步提高竞争力,以及金融科技企业在支付领域的崛起创造了制度环境。

一是内部场景 : 传统支付机构的变革。虽然各支付机构采取的策略不同,但是纷纷加大力度尝试将区块链技术应用于自身网络的完善之中,以此扩大市场份额,提高市场竞争力。

2015年11月,Visa欧洲联合实验室(Visa Europe Collab)与Epiphyte开始合作尝试将比特币区块链应用于跨境汇款,资金通过比特币区块链进行跨境流转,最终由Visa的网络设施收取。2016年7月,Visa欧洲联合实验室测试将初创公司SatoshiPay的技术运用于Visa银行卡支付网络,允许客户的Visa账户向SatoshiPay钱包进行自动小额付款。2016年9月,Visa欧洲联合实验室与BTL Group的合作项目已经开始测试通过智能合同提升银行间的境内和跨境支付活动效率。

除此之外,万事达、西联与SWIFT(环球同业银行金融电讯协会)也都在尝试通过区块链技术完善现有的商业网络。其中,万事达与西联都是DIGital Currency Group的投资者。

二是外部场景: 金融科技企业的崛起。区块链技术带来的变革为金融科技企业跨界提供支付服务创造了机遇,并开始挑战传统支付机构的行业地位。

成立于美国的Ripple为一家利用类区块链概念发展跨境结算的金融科技公司,它并没有采取与支付机构合作的模式,而是构建了一个没有中央节点的分布式支付网络,主要吸收商业银行加入合作,希望提供一个能取代SWIFT网络的跨境支付清算平台,打造全球统一网络金融传输协议。目前来看,Ripple的商业模式定位基本决定了它将逐渐演变为双方结算过程中可信赖的第三方,最终可能形成中心化而非去中心化的商业模式。如果Ripple真的向这个方向发展,那么它在商业模式上与SWIFT已经没有本质的区别,两者仅仅是技术手段层面的分别。

但是,金融科技企业毕竟开始利用区块链技术带来的便利蚕食传统支付机构的跨境交易市场份额。为了应对Ripple等金融科技企业的挑战,SWIFT召集占据全球75%跨境支付份额的73家大型银行探讨如何显著提高跨境支付的效率和透明度等客户体验。

二、底线与竞争:加密数字货币和区块链技术在金融行业应用的国际监管经验

(一)各国普 遍不认可非法 定加密数字货币的法币地位

美联储 主席耶伦在向美国参议院银行委员会提交的报告中指出,比特币作为创新性的支付工具,游离于银行体系之外,并不属于美联储的监管对象,变相否定了比特币的法币地位。

根据美国《商品交易法》数字加密货币应属于“商品”,由此美国商品期货交易委员认为比特币在法律上应该被视为“商品”。美国联邦税务局(Internal Revenue Service)也认为比特币并非是货币而是财产,其挖矿、买卖和使用行为均应进行纳税申报。

2014年 6 月 29 日,加利福尼亚州州长签署《数字货币合法化法案》(简称“AB-129法案”),新法案规定:“虚拟货币不是法定货币,没有政府的信用背书,其账户和价值不受美国联邦存款保险公司(FDIC)和证券投资者保护公司(SIPC)的保护。”加拿大政府政府财政部官员也指出加拿大不认可比特币的法币地位,加拿大政府将密切关注加密数字货币的发展。

类似的, 欧洲央行认为,比特币等加密数字货币不符合经济或者法律中对于“货币”的定义,它没有同时满足货币作为交换媒介、价值储存、记账单位这三个条件。但是,加密数字货币可能会对中央银行功能的发挥产生影响。因此,欧洲央行认为其有义务设立机构监管加密数字货币,评估风险,审慎监管,保持金融系统完整性,防范其被用于非法用途。

德国联邦金融监管局(BaFin)与德国联邦财政部均认为比特币等加密数字货币属于记账单位,可归入德国银行业法中的金融工具种类。由于加密数字货币可以基于双方之间的合同成为多方结算的手段,因此它可能替代法定货币。为了避免歧义,德国联邦金融局明确指出加密数字货币并非德国支付服务监管法意义上的法定货币。

法国中央银行(Banque de France)也申明加密数字货币并非该国法律承认的法定货币,不可以作为支付手段,它本身存在重大风险,已经成为市场投机、洗钱或者其他非法活动的工具。

丹麦金融监管机构(Finanstilsynet)认为比特币不属于法币,比特币相关交易也不属于严格意义上的金融活动,比特币系统可以视为某种应纳税的电子服务。丹麦央行进一步指出,与黄金和白银相比,比特币并没有交易价值,比特币不受存款保险等本国法律机制的保障。

俄罗斯法律明确规定卢比为该国唯一法定货币,俄罗斯境内的一切金融交易必须采用卢比定价。据此,比特币不具有法定货币地位,如果双方在特定交易中使用加密数字货币而非卢比进行交易,无论是视其为外币或者外部担保手段都属于违法行为,并可能因此承担法律责任。日本金融服务厅(FSA)将比特币定义于“资产”或者“财产”,与美国联邦税务局的分类一致。

(二)监管机构不断加强非法定加密数字货币的监管

美国联邦政府相关职能部门通过澄清非法定加密数字货币的本质,解决了法律适用问题,借用现有的法律框架监管虚拟货币产生的犯罪风险,防止虚拟货币的非法使用。相比之下,州政府的监管目的不局限于防范反洗钱风险,更加倾向于保护消费者与保障网络安全。这就要求通过完善监管规则,保障监管机构的执法权。

例如,2014年6月,加州通过了《数字货币合法化法案》(简称“AB-129法案”),该法案明确规定现行法律禁止在美国发行或流通所有不合法的货币,但并不禁止加密数字货币的发行和使用,其立法目的在于修改现行法律,以确保使用各种形式的替代货币购买商品和服务或汇款时不触犯法律。

2015年3月,在AB-129法案的基础上,加利福尼亚州州长签署了AB-1326法案,AB-1326法案在加州金融法下新增一个章节(Financial Code第11章),专门规范加密数字货币企业,明确了加密数字货币业务的基本监管框架:除非是银行法上的特许机构或者与买卖商品和服务有关,任何机构接受加密数字货币用于划拨或者划拨该货币,获取、存储、替人代管加密数字货币,从事加密数字货币零售兑换服务,以及控制和管理加密数字货币均需要获得许可证。

被许可人应该向消费者揭示加密数字货币风险,如币值波动、资产不保值等,并让消费者知悉向监管部门投诉的程序。每个获得许可的企业都必须建立并维护相关政策和程序,保障消费者投诉获得公平和及时的解决。

法案要求被许可人建立稳定高效的运营系统,采取技术保障措施,定期对系统进行压力测试。为了确保业务在法律法规框架内有序进行,法案要求被许可人应配合合规检查。如果发现被许可人有违法违规行为,检查专员可以要求其改正,确保合法合规,或要求其停止不安全或者危害的作为,在特定情况下甚至可以暂停、撤销许可证,或将破产的被许可人交由破产管理。

德国 联邦金融监管局明确,单纯或偶尔从事比特币挖矿、支付活动并不需要取得监管部门的许可。但是如果从事为他人交易比特币提供服务的商业活动,则应该根据德国银行业法取得许可。此原则亦适用于具有商业性质的大规模比特币挖矿活动。

质言之,德国联邦金融监管局认为商业性的比特币服务行业应受到金融监管,在具体方式上监管部门对不同的业态采取不同的方式:

一是比特币交易经纪业务。根据德国法如果以自己名义为他人购买和销售比特币,则构成典型的经纪业务,需要取得德国联邦金融监管局的许可证。该种模式下,经纪业务背后的客户并不了解对手的真实身份。比特币经纪人根据客户指示的数量和价格购买或者出售比特币。

二是比特币平台业务。 如果比特币交易根据平台设计的规则重复进行,促成交易各方可以在价格达成一致意见时完成比特币交易,监管部门就认为该平台具有面向大众的多边交易功能,并且此类比特币平台业务需要根据德国银行业法取得许可证。

三是比特币信息中介业务。 如果企业不直接参与比特币交易,而仅仅是提供信息平台,供交易双方了解对方拟交易的比特币数量或者价格,则经营比特币信息中介业务的企业应取得从事比特币居间商业务的许可证。四是自营交易。企业用可支配的资金以自己名义进行比特币交易,属于从事比特币自营交易的盈利活动,根据德国银行业法从业者亦应取得相应的许可证。此外,需要注意的是,取得上述各类许可证从事比特币业务的企业在经营过程中,需要履行有关反洗钱和反恐怖融资的合规义务。

法国 中央银行认为从事比特币与法定货币之间进行兑换的业务属于支付服务,此类业务必须获得审慎监管机构的授权并取得许可证。这一方面有利于降低比特币交易中的欺诈风险,同时也有助于督促经营主体履行反洗钱和反恐怖融资方面的合规要求。

日本 2016年5月通过了一项监管国内加密数字货币交易所的法案,要求加密数字货币交易所运营商在日本金融服务厅进行注册,并要求将法定货币、数字货币基金监管和管理分开,同时严格实施反洗钱法条例,落实了解你的客户规则。

俄罗斯 中央银行明确,俄罗斯境内的个人或者企业,无论是自己从事还是协助他人或者别的企业从事以比特币交易商品、服务、或者法定货币的行为,都被视为与洗钱或者恐怖融资相关的可疑活动,因此建议俄罗斯个人或者企业远离比特币交易。2017年10月中旬,俄罗斯总统普京宣布将发布法定数字货币加密卢布“CryptoRuble”。

(三) 区块链监管的跨州跨国监管竞争加剧

尽管主要国家在非法定加密数字货币的监管态度上达成了最基本的共识,但是在具体操作上,觊觎金融领域应用区块链技术的潜在商业价值,各国纷纷结合本土情况,采取不同的监管策略。在金融行业应用区块链技术领域,监管竞争最为激烈的当属美国联邦各州之间,以及放松管制著称的各国际金融中心之间。

一是州际竞争。 在支付行业应用区块链技术的监管方面,美国各州之间存在一定差异,监管制度最终与各州金融产业政策结合,形成独具特色的竞争格局。例如,在加密数字货币的监管方面,加州法案构建了虚拟货币业务领域的审批体系,寻求在消费者保护与促进产业发展之间的平衡,一方面为消费者提供必要的保障,另一方面为初创企业提供健康的成长环境。

此外,立法者还设计了临时许可证制度,使得初创企业和服务少量消费者的小企业享有更低的门槛,具体表现为企业满足比较低的申请要求就可以从业,企业可以根据风险评估标准自行证明合规性等。

相反,纽约州作为大型金融机构的聚集地,监管政策就比较严苛,无论是监管范围、资质审核,还是获得执照后应持续满足的监管规定,对任何一个想要申请数字货币执照的企业来说,都需要消耗大量资源满足监管要求。上述规定比较符合纽约州大型金融机构的利益诉求。一些小规模的初创企业在起步阶段如果选择在纽约州开展业务会遇到较大的困难。

二是跨国竞争。 欧盟成员国大多采取了类似欧洲央行的态度,审慎推定并密切关注加密数字货币的发展,初步确定了最基本的监管规则。然而,英国作为欧洲最重要的金融服务业中心,对比特币等加密数字货币一直采取相对柔和的监管措施,并没有通过官方途径对于比特币的性质作出明确界定,也没有对数字货币的交易活动进行严格限制。英国这种“看看再说”的模式与欧洲大陆国家比较谨慎的态度形成鲜明对比,实际上体现了欧洲国家之间对于金融服务业的不同态度。

相对于以工业立国的德国和法国,英国有意识地希望成为欧洲范围内加密数字货币和应用区块链技术的中心,增强伦敦作为全球金融中心的竞争力。可以预见,在英国正式脱离欧盟之后,很可能采取更为宽松的监管态度。香港和新加坡作为亚洲地区效仿伦敦模式的国际金融中心,对于支付行业应用加密数字货币等区块链技术也采取了宽松模糊的监管策略,避免在金融服务业全球转移中处于监管竞争的劣势地位。

瑞士对加密数字货币以及其他区块链技术在支付领域的应用持完全开放的态度。加密数字货币的支付系统与瑞士私人银行一贯遵循的保密原则相吻合。瑞士的银行和证券等金融机构已经开始大规模地尝试应用区块链技术,甚至政府层面也直接介入。

例如,以投资环境好和税收显著低的优势吸引全球对冲基金、大宗商品交易商入驻的楚格州,正全力打造区块链产业的国际竞争优势,当地政府率先允许市民以一定数额的比特币(不超过两百瑞士法郎)缴纳赋税,创造应用场景,吸引初创企业,被外界形象的称为“加密谷 (Crypto Valley) ”。

三、秩序与创新:加密数字货币和区块链在金融行业应用的监管启示

(一)建立非法定数字货币的基本监管制度框架体系

2013年12月,中国人民银行等五部委联合发文(简称“五部委通知”),确定了比特币的监管框架:

一是明确加密数字货币性质。比特币是一种特定的虚拟商品,不具有法偿性与强制性等货币属性,并不是真正意义的货币,不具有与货币等同的法律地位,不能且不应作为货币在市场上流通使用。但是,比特币交易作为一种互联网上的商品买卖行为,普通民众在自担风险的前提下拥有参与的自由。

二是隔离正规金融服务。各金融机构和支付机构不得以比特币为产品或服务定价,不得买卖或作为中央对手买卖比特币,不得承保与比特币相关的保险业务或将比特币纳入保险责任范围,不得直接或间接为客户提供其他与比特币相关的服务。

三是加强平台监管。作为比特币主要交易平台的比特币互联网站,应当根据《中华人民共和国电信条例》和《互联网信息服务管理办法》的规定,依法在电信管理机构备案。同时,针对比特币具有较高的洗钱风险和被犯罪分子利用的风险,交易平台应切实履行反洗钱义务。

五部委通知将比特币定义为商品而非法定货币与其他主要国家一致,通过隔离正规金融机构,在一定程度上建立了比特币等非法定数字货币与正规金融活动之间的防火墙,降低了随后比特币价格大幅波动时对正规金融服务的冲击。但是,通过部门规章规范比特币交易的缺点也是显而易见的。

由于缺乏通过法律或者法规确定的准入门槛和与之配套的监管制度,导致具有商业性质的大规模比特币交易长期游离在监管之外。监管部门只能通过约谈、风险提示、发布公告(如《关于防范代币发行融资风险的公告》)等柔性方式规范与非法定数字货币相关的发行或者交易行为,难以通过强有力的处罚机制约束和限制平台或者个体违规。

为此,有必要系统研究制定针对非法定数字货币的基本监管制度,在扩大现有法律有关“证券”等概念范围,规范解决ICO问题的同时,明确界定非法定数字货币经纪业务、非法定数字货币平台业务、非法定数字货币信息中介业务和非法定数字货币自营业务,根据不同的业务类型设定准入门槛、业务规则并辅之以相应的监管和处罚制度,加强投资者保护,逐步建立非法定数字货币的基本监管制度体系。

(二)尽快完成法定数字货币的顶层设计与初步示范

有别于针对比特币等非法定数字货币采取的审慎态度,监管机构认为法定数字货币是历史发展的必然,央行必须推动发行数字货币,最大限度地提升支付交易的便利性和安全性。央行对法定数字货币的形态和运行框架等问题已形成了初步的研究成果,并将在此基础上进一步探讨技术细节,发展法定数字货币的发行和流通体系。

但是,考虑到法定数字货币可能对金融体系乃至国民经济产生的深远影响,监管机构必须审慎择时,并在推出中国版法定数字货币的同时,颁布与之配套的发行、流通、兑换和监管制度,形成完整的加密数字货币监管框架,积极防范金融风险,为在极端情况下采取应对措施做好前期准备,留足央行进行直接市场干预的技术、规则与法律空间。否则,一旦发生超出央行控制范围(例如,跨国交易或海外交易)与能力的风险事件,后果将不堪设想。

同时,为了防范法定数字货币可能对整个金融系统的负面影响,监管部门可以考虑与大型金融科技公司进行技术和渠道方面的合作,构建稳固的监管沙盒,将法定数字货币应用于特定地区的特定领域,包括在工商、税务、交通等公共管理领域和煤气、供电、供水等公共服务领域率先接受数字货币进行线上支付,形成小范围、小领域的可控闭环。待初步试验成功之后,再逐步向外围推广。

(三)加强监管机构在金融业应用区块链上的国际协调

除了数字货币之外,区块链技术在银行、证券、保险和支付领域仍然有非常广泛的发展空间。为此,主要国际金融机构通过组成投资团队与金融科技企业合作等方式(例如,囊括40多家大型国际银行与科技公司的R3 CEV开展区块链领域的深度合作),探索区块链技术在金融行业的商业应用,场景逐年递增,涉及跨境支付与结算、票据与供应链金融、证券发行与交易、客户征信与反欺诈等领域。

由于这些商业应用形式尚未大范围推广,在是否应出台针对性的监管措施以及如何监管区块链技术与金融业结合形成的新型商业模式方面,各国监管机构短时间内不会表态,该策略同样也适用于中国。

从根本上说,金融业应用区块链技术形成的新型交易结构是否能够取代以及在多大程度上替代当前中心化的商业模式仍然需要时间观察。伦敦、新加坡、香港、瑞士等主要金融中心为吸引国际金融资本转移可能进一步放松管制,这为区块链技术与金融业结合创造了监管新型商业模式的海外场景。

考虑到区块链技术对金融机构业务模式可能产生的深远影响,中国金融业可能在个别领域具有了初步挑战传统国际金融机构霸主地位的可能,监管部门可以尝试推动国有金融机构与大型金融科技公司合作将区块链技术应用于跨境支付等领域,或者在一些新兴领域进行尝试,并借助于大型互联网公司在大数据、云计算和人工智能等方面的技术储备,不断提高监管能力,积极推广监管科技(Regtech),降低金融机构应用区块链等新技术的合规成本,提升中国金融服务业和金融科技在全球的竞争力。

(四)重点打击违法犯罪行为

区块链技术在金融业的应用,可能导致监管机构在某些业态下无从获取相关交易信息,在一定范围内形成了监管真空,成为某些犯罪行为的孳生地。

近年来,与加密数字货币密切相关的黑市交易(例如,美国臭名昭著的“丝绸之路”)、洗钱和恐怖主义融资行为不断增加,犯罪分子利用区块链技术隐蔽性高、难以察觉的特点,在监管的灰色地带,大规模从事违法犯罪行为,已经成为各国乃至国际刑事司法力量重点打击的对象。同时,区块链技术本身的神秘性和复杂性,以及比特币等非法定数字货币交易价格在短短数年内的暴涨,也成为不法分子打着高科技和颠覆性的旗号,借助社交媒体进行非法集资和网络诈骗的新常态。

对此,金融监管部门可以考虑与公检法系统通力配合,并提供必要的技术与信息支持,合力打击洗钱、恐怖融资、集资诈骗、非法或变相吸收公众存款等违法犯罪行为,坚决维护金融市场秩序。

页面:12345678...18
随时欢迎您 联系我们