:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Blog

  • Dec 20 / 2017
  • 0
Ideas

锐眼洞察 | 从VC视角预测零售业的未来(翻译)

作者:Veronika Sonsev

原文:Will AI Be The Future Of Retail?

译者:TalkingData 合伙人&执行副总裁 林逸飞

本译文禁止商用,转载请注明作者与来源!

2017年是零售业的里程碑。今年有超过6700家店计划关闭,击败了2008年金融危机中关店6163家的历史最高纪录。鉴于2008年关店潮是外部经济力量冲击全美国带来的影响,我们可以将目前的下降趋势归结于消费者购物行为改变与零售技术创新。

随着2018年即将到来,大多数零售商都在问:零售业的下一步是什么?我们应该投注在哪里以争取领先?为了帮助大家找出他们的计划,我们在1月份在NRF峰会中咨询了风险投资家。Bain Capital Ventures董事兼总经理Scott Friend、Fung Capital合伙人Janie Yu、Lightspeed合伙人Alex Taussig和FirstMark Capital董事兼总经理Beth Ferreira,在此次峰会中分享了他们对消费趋势和未来店内零售的观点。

虽然零售方面有很多创新,但这些风险投资家却有一些消费者对的技术趋势的看法:增加对产品的实时需求,人工智能驱动的会话界面的兴起(如Facebook Messenger、网络聊天和语音助手如Alexa )以及通过订阅和服务,高度个性化的在线购物。

对实时产品交付的更多需求: Beth Ferreira和Scott Friend强调消费者对即时性的需求日益增加。费雷拉说:消费者想要的时候,你无法阻拦他们想要什么,或者它来自何处 。最近由Target收购Shipt证实了这一点,这证明了当日达这种模式日益增长的吸引力,而且提供全天候提供客户服务。朋友补充说:这种实时消费需求也在推动消费者寻找国际销售的产品。这就要求零售商找到像Flow.io这样的新解决方案,帮助他们高效地处理跨境销售和送达产品。

AI会话界面的兴起:当我不可避免地意识到我的一个礼物在这个假期没有按时到达预期的目的地的时候,我会立刻想要提出建议并让他们知晓。零售商如何为像我这样的购物者提供顾客服务?据Janie Yu介绍,零售商可以使用AI提供的会话界面(如Facebook Messenger或Alexa)来回答常规问题,并通过基于聊天的购物来补充客户支持。

朋友希望AI在零售业有更大的机会,而且作为增强店内客户服务的一种能力。想象一下,你正在走进HOME DEPOT,朋友说,如果你可以简单地用你的声音向HOME DEPOT用程序询问你想要的产品在哪里,并告诉你它在商店地图上的确切位置?你可以完全不用询问销售人员。尽管现在人工智能的局限性很明显,但随着技术的进步和应用程序的逐渐增加,AI对零售业的作用也只会越来越强大。

日益个性化的网上购物: Alex Taussig认为人们购物的方式正在改变,为更多个性化的购物体验开辟新的道路。服装订购服务,如Stitchfix,使用复杂的算法,策划个人挑选的物品盒,Taussig指出,客户不再需要考虑他们购买的衣服,因为服务变得更聪明,或者考虑像Laurel&Wolf和Modsy这样的以服务为导向的体验,Taussig补充道,他们通过开始设计服务的经验,帮助零售商销售家具,让客户可以设想自己在家中的产品。

展望未来10多年,风险投资公司看到了,今天在加速对未来技术的3D编织实现了个性化的实时购物: Yu认为部分可以实时生产的产品的需求将由3D编织服务来支撑。随着3D针织技术变得越来越复杂,商店或在线零售商可以在数小时内以客户的确切尺寸生产定制服装。这种现象将使制造业回到岸上,因为它需要更少的劳动力和更有粘度的客户。

自动送货到商店:随着自动驾驶车辆已经在试驾道路,Taussig知道这是满足消费者实时需求的关键。通过更便宜,更方便的交通工具,使得消费者轻松到店。自动驾驶汽车可以大大提高销量,特别是在城市地区。消费趋势。随着3D针织技术和自动驾驶汽车的进步,当前的实时需求将会得到进一步提升,人工智能将继续发展,几乎为所有的个性化购物和客户体验提供动力。

更智能的购物: AI已经为产品的选择提供支持,并将整个体验从头到尾进行个性化。这种力量只会越来越强,越来越聪明。就我个人而言,我不是一个穿着像马克·扎克伯格一样的灰色连帽毛衣的风格,我喜欢我衣柜里的各种各样,但讨厌购物或选择穿什么的过程。如果我可以按照我今天的会议,在醒来之前让电脑检查我的日历,然后再选择完美的装备,我会很高兴。YU说,关于这一点,未来比我们想象的要更多。

虽然关于未来的发展存在很大的不确定性,但最终的胜利者将是消费者。由于未来的消费者需要接近实时地提供更多个性化的产品,甚至不需要消费者选择,AI就知道他们想要的东西,因此我们所知道的传统零售已经结束。我们即将告别消费者在周六下雨天去逛商场的日子,因为明天的购物者会用3D编织技术,量身定制她的衣服,而且还会将它自动送到她的房子。

 

  • Dec 20 / 2017
  • 0
Ideas

锐眼发现 | 2018年金融科技业十大预测

作者:Henri Arslanian

原文:10 FinTech Predictions for 2018

译者:吕林倩

转载于:未央网

对金融科技公司来说,2017年是重要的一年,但2018年的发展同样让人兴奋。以下是我们对2018年金融科技领域的一些预测:

1. 比特币与加密货币–会出现机构级别的投资者吗?

2017年比特币和其他加密货币打破了许多记录(尤其是在价格方面),引起了公众的广泛关注和兴趣。潜在投资机构相继宣布投资加密货币、推出加密基金,从中介到银行的”现任”服务提供商也进入了这一领域,预计这一领域的火爆情况在2018年还将继续。

零售领域也期待创新。尽管加密货币或首次币发行(ICO)取得许多突破性进展,但对用户来说,投资它们并不方便。如何保管密码仍需要更多经验。例如,你忘了银行密码随时可以找回账户密码,但如果忘了加密货币密码,就再也找不回来。

2. 加密法规与税收–监管机构和税务机关也准备加入吗?

截至目前,监管机构大多对加密货币采取了一种平衡实用的方法。但他们也明确表示打击任何违规行为,美国证券交易委员会对数据访问对象的调查报告就是一个很好的例子。然而,监管机构可能针对某些盲目的首次币发行采取更高调的执法方式,希望这种做法能起到杀一儆百的效果。

预计税务当局也会更加活跃,尤其是比特币价格上涨的情况下。美国国税局最近要求美国一家大型加密货币交易所提供账户持有人的姓名,这可能预示了未来的发展方向。

3. 首次币发行(ICO)–这个新行业能成功吗?

过去一年,ICO发行吸引了大量媒体关注,并通过代币销售累计获得30多亿美元资金。未来,这一行业很快就从”两个人加一纸理念”的模式发展为经验丰富的团队加专业营销公司的完美商业模式。

尽管ICO狂热在2018年可能会平息下来,尤其是从ICO的数量和筹集金额角度来看,但我们预计该行业还是会随着行业进一步发展而进一步制度化。KYC(了解你的客户)、AML(反洗钱)流程、管理方式、透明标准这些关键领域体现尤为明显。预计行业翘楚将践行更多创新项目,最近香港金融科技协会的实践就是一个很好的例子。

4. 管理科技–未来整合浪潮?

管理科技(RegTech)将继续成为金融机构的兴趣点,金融机构不仅希望更加高效地完成监管义务,而且还希望能有效降低相关风险和成本。

然而,漫长的销售周期和采购障碍仍将是挑战,特别是法律和合规团队对管理科技还不太熟悉。此外,这一领域还缺乏占主导地位的公司,这将会导致行业进一步整合,而管理科技创业公司可能还会被某些不想被淘汰的传统技术提供商收购。

5. 银行拥抱金融科技–创新团队的终结?

尽管创新团队在金融科技早期发挥了关键作用,银行与创业公司还在学习如何合作的时候,就经常因去烧预算而受到批评,创新团队更多的是被作为一种营销工具,而不是一种组织内有意义的变革驱动力。

随着银行高级管理层对金融技术的熟悉、对金融技术的了解,可以预见许多金融科技公司将完全避开创新团队,直接处理相关业务。这样除了能节约金融科技创业公司的时间和精力,还能继续把创新作为一种思维模式根植于整个组织中,而非仅仅局限于创新团队。但说起来容易做起来难!

6. 监管科技–监管机构将使用新技术?

监管科技,简称”SupTech”,是指监管机构采用新技术,使监管更有效,减轻合规负担。可能与有些人的想法相反,许多监管机构进行先进的数据分析和人工智能工具试验,不仅是为了检测市场操纵,还为了处理每月收到的成千上万份监管文件。

预计一些主要监管机构将继续充当这一领域的先锋。例如,新加坡金融管理局正在计划在监管报告上使用机器可读模板,并彻底修改数据收集习惯,甚至允许金融机构在监管机构两次要求相同数据的情况下拒绝其要求。

7. 开放银行–你的银行数据将与你最喜欢的科技公司合并?

2018年金融技术议程的首要议题还是围绕开放银行业务、开放应用程序编程接口(API),欧洲PSD2(《支付服务指令修正案》)等监管法案、香港监管机构宣布开放API框架等监管举措推动了这一领域发展。

尽管大多数人都认为开放银行是整个行业的普遍走向,但观察当前银行如何在2018年实现自己的定位、科技大公司将取得什么样的进展还是很有趣。在开放的银行模式中,消费者会选择科技公司还是更信任传统银行?结果还是个未知数。

8. 语音界面操作–Alexa会成为你的新银行家吗?

尽管关注焦点仍在手机端,但语音界面操作正逐渐被接受和使用。从欧美的亚马逊Echo、谷歌Home到亚洲的百度小鱼、阿里巴巴Genie,语音助手逐渐成为我们日常生活的一部分,一些研究甚至预测2022年前大多数美国家庭将拥有此类设备。

与近年来聊天机器人的情况类似,预计金融机构将继续研究如何把解决方案与向客户提供的产品整合。尽管仍面临许多数据安全和隐私问题,但这领域看起来仍然很有发展前途。那么Alexa能成为你的下一个银行家吗?

9. 金融科技套利–西方研究,东方销售?

亚洲通常被公认为B2C金融技术的全球领导者,主要是因为中国的几家大公司(比如百度、蚂蚁金融、腾讯(BAT))在向公众提供金融服务发面取得了进展。但亚洲想要继续成为B2B金融技术领导者,不一定要从创新角度出发,还可以从应用和整合方面入手。

考虑到相应的技术掌握情况及客户基础的要求,亚洲金融机构通常非常渴望尝试新的解决方案。大多数金融机构以及大型国际银行的亚洲分部现在都有了合理的自主权决定使用哪些创新手段。对全球专注B2B的金融科技公司来说,这可能是一个机会,他们可以在西方做研发,在亚洲投入应用,还可以利用香港或新加坡等地作为中间站。

10. 欺诈和网络安全–如何避免害群之马?

尽管存在诸多障碍,但金融科技行业仍在继续发展。这一行业面临最大的挑战可能是重大事故,如网络攻击,消费者的私密数据有可能被窃取。或者是公开欺诈案件,可能会严重损害银行、公众对金融科技的好感。例如,2014年Mt.Gox丑闻之后,比特币的行业环境遭受了重大挫折,这一事件导致它的发展势头减弱。近年来,P2P贷款的声誉则受到多重丑闻和庞氏骗局的严重损害。最近,针对银行的网络攻击一直持续不断,而且可能还有针对缺乏安全基础设施、幼小的首次币发行的攻击。

对于更广泛的金融科技行业来说,要继续保持繁荣,重要的是确保每个人都在专业、诚信和透明下的机构内工作,并采取适当的预防措施,尽可能避免意外事件发生。

  • Dec 19 / 2017
  • 0
Enterprise

锐眼洞察 | 在企业中接受开放数据科学的5个技巧(翻译)

作者:Alice LaPlante

原文:5 tips for embracing open data science in the enterprise

译者:TalkingData 合伙人&执行副总裁 林逸飞

本译文禁止商用,转载请注明作者与来源!

企业不断寻求竞争优势。最近,重点是利用数据抓住机遇,发现可能的弱点,并胜过竞争对手。大数据尤其提供了多种方式来使用数据来推动战略、运营和执行实践。数据科学越来越成为实现这一目标的途径。

首先,定义:数据科学是一个多学科领域,将高级分析(包括机器学习和人工智能)的最新创新与高性能计算和可视化相结合,从数据中提取知识或洞察力。

数据科学的工具起源于科学界,研究人员利用这些工具来测试和验证包含“不确定的未知数”的假设。随着计算成本的下降和软件变得更加复杂,这些工具在过去的10年中逐渐进入了商业、政府和其他组织。

但是专有工具和技术已经证明不足以支持数据科学领域现有的速度和创新。进入开源社区。

开源社区希望摆脱专有工具的束缚,采用更加开放和协作的工作风格,这种风格能够反映他们的工作方式——团队遍布全球。这些社区不只是创造新的工具,他们呼吁企业使用正确的工具解决手头的问题。

开放数据科学是革命性的。它改变了组织处理分析的方式。借助开放数据科学,你可以提高数据团队的生产率,通过转向自助式数据模型提高效率,克服组织和技术方面的障碍来最大化数据价值。

采取开放数据科学,有五件事你可以去做:

1、全心全意采用开源。传统的商业数据科学工具发展缓慢,虽然稳定和可预测,但其中许多都是围绕着20世纪80年代风格的客户——服务器模型架构,不能通过网络访问接口扩展到面向互联网的部署。另一方面,开放的数据科学生态系统建立在标准、开放性、网络可访问性和面向网络规模的分布式计算的概念上。此外,开放数据科学工具是由分析师、工程师、统计人员和计算机科学家组成的全球性团体所研发,他们在该领域拥有丰富的实践经验。

这一全球团体包括数以百万计的用户和开发人员,他们迅速迭代当今最令人兴奋的算法、可视化策略和数据处理例程的设计和实施。这些部分可以高效且经济地扩展和部署到各种不同的系统中。

通过积极采纳并为这个团体做出贡献,成功部署的机会将成倍增长。

2、建立一支拥有多种技能的数据科学团队。成功的项目从聚集合适的人并通过可操作的方式把他们组织起来开始。开放的数据科学也一样,但所需技能的多样性可能会让你感到惊讶。诚然,数据科学固有地依赖于数学和计算机科学。传统上认为,一个人要想在数据科学领域工作,必须要有强大的统计学背景。然而,这些像独角兽一样稀有且神奇的“数据科学家”很难找到。此外,开放数据科学是现实有用的学科,需要一个包括业务分析师、数据科学家、开发人员、数据工程师和开发运维工程师的团队。

它还需要新的组织结构——卓越中心、实验室团队或新兴技术团队,都是促使团队成员推动变化的一种方式。这些团体通常负责积极寻找新的开放数据科学技术,并确定组织的适合性和价值。这有助于开放数据科学的采用,弥合传统IT和业务线之间的差距。另外,可能会有从统计学家到数据科学家、从数据库管理员到数据工程师的角色转变,新的角色(例如计算科学家)也将会出现。具有灵活性且拥抱多样性是十分值得的。

3、确保高管支持。这可能听起来像老一套的“IT项目需要高管支持”的说辞。但请记住,我们正在谈论的是在企业IT图景中为新兴世界腾出地方,在这个新兴世界中,开放数据科学与新的和现有的数据相连接,影响从普通的日常事务到重要的业务战略决策。另外,开放数据科学也会将新的不同类型的风险引入到组织中,这些风险可以通过适当的高管赞助来减轻。

4、准备动态支出。使用传统的分析软件,当你购买平台或系统时,你所有的支出都是事先决定好的。你全力以赴高效执行这一决策了一段时间。然后就你有所收获。这种静态投资与开放数据科学所做出的动态投资完全不同。

在开放的数据科学世界中,你将有更快运行和迅速完成事情的优势,因为开源软件可供用户免费下载并立即开始使用。无需等待企业采购周期。也不必等待商业软件的漫长升级周期,因为世界上最聪明的人才在不断为开源软件创新作出贡献,并且他们的努力立即可用。这绝对是一项优势。减少前期大规模规划和预算十分有必要。但是,随着需求和技术的发展,你必须不断做出新的决策和投资。这就要求在预算和采购方面进行一些组织流程的改变。

5、建立健全且合适的治理框架。开放的数据科学并不存在于真空中。你仍然需要控制组织中数据科学资产的创造、分享和部署。你为数据科学资产建立的用户权限必须与各种各样的企业认证系统(如LDAP、Active Directory和Kerberos)结合,以跟踪所有开放的数据科学活动。这包括访问特定版本的开源代码库和软件包的权限,以及由你的团队创建的特定版本的数据科学资产。另外,你需要建立完整的数据科学资产来源(例如数据、模型和应用程序),以实现监管机构或合规审查委员所要求的透明度。

当今的业务速度要求获得授权的团队对数据科学反应积极的合作,并且有对业务的深入了解,能够迅速传递价值。他们还需要正确的开放数据科学工具,而且愈加延展为一系列的编程语言、分析技术、分析库、可视化和计算基础设施。

开放的数据科学是真正的革命性的,并有可能改变我们所知的商业决策。

  • Dec 19 / 2017
  • 0
Data

锐眼发现 | 「Why-What-How」:数据分析的基本方法论

作者:陈新涛,公众号「ourStone」

转载于:人人都是产品经理

本文由 @陈新涛 原创发布于人人都是产品经理,版权属作者本人所有。

作者注:2017.12.3受「水滴互助」的朋友相邀,分享了个人在数据分析领域的一些基本方法论。数据产品以沉淀数据分析思路为基本点,这两个领域略有重合之处。在这里整理成文章分享给大家。


「Why-What-How」在讲解概念和执行上是个不错的思维模型
,这次依例按此框架来拆分「数据分析」。相信很多朋友已经有了较丰富的分析经验,这里权且从个人的角度进行梳理,以资参考。为了帮助大家更好地理解本文,先贴出一张思维脑图:

一、WHY:为什么要做数据分析

在目前讲解数据分析的文章里,大多数会忽略数据分析本身的目的。这会导致我们在执行时,会出现动作变形的情况。

以终为始,才能保证不会跑偏。

个人的理解上:数据分析是为了能以量化的方式来分析业务问题并得出结论。

其中有两个重点词语:量化和业务。

首先讲下量化。

量化是为了统一认知,并且确保路径可回溯,可复制。统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。

路径可回溯可复制指的是:通过量化后的结果,许多优化的方法是可以被找到原因并且可以被复制的。同样是转化率优化,用 A 方案和 B 方案,谁的效果会比较好和具体好多少,都是可被预测的。

要想做到量化,需要做到三点:建立量化体系,明确量化重点和保证数据准确性。

1.1 建立量化体系

建立量化体系,主要是根据「指标设计方法」,设计业务的「核心指标+拆解指标+业务指标」,最后落地成全公司通用的「指标字典」和「维度字典」。

这种工作一般是由数据分析师或数据 PM 来担任完成。通过这种方式,我们就能初步建立面向全公司全面,系统的量化分析框架,保证日常分析可以做到「逐层拆解,不重不漏」

1.1.1 指标设计方法

讲到指标设计方法,大家可能觉得:之前听过了产品设计方法、程序开发方法,指标这种东西也有设计方法么?

确实有,指标设计是一套以准确和易懂为准则,集合统计学和业务效果的方法论。

准确是指能够准确满足衡量目的,易懂是指标算法能直观显示好与坏,并且指标的算法也能够通俗易懂。这两者很多时候需要有所抉择,准确是第一位的。举个例子:当我们想衡量一个群体收入的差异性时,用方差还是用基尼系数?

方差好懂,但不能显示两个极端的差异性多大。基尼系数算法不好懂,但能准确描述这个问题。

具体到指标设计,我们需要使用一些常用的统计学工具:

以顾客质量分析为例:概况是我们看下顾客的平均支付金额,或者支付中位数,来了解顾客概况。如果我们想了解这批顾客的质量是都比较好,还是良莠不齐,则需要通过方差和标准差来描述。如果想知道更详细的内容,可以了解每个区间的用户数是多少,来做判断。

有一些 Tips 供大家参考:

  1. 比率指标:关注实际效果(下单转化率,光看下单数是没有用的)
  2. 伴生指标:既要看新客数也要看 CAC,确保数量的前提也要确保质量
  3. 防止坏指标:错误指标,虚荣指标,复杂指标

这里简单解释下每个 Tips 的目标。

之所以采取比率指标和伴生指标,是因为能够明显反映业务的「效率」且能够有效防止因为追求单个指标而导致动作变形。

如果说这辆车能跑十万公里,其实并不能表示这辆车的性能怎么样;只有「速率=路程/时间」,才能反映这辆车的效率。

同时,如果片面追求速率,会导致汽车在设计时剑走偏锋,给驾驶者带来危险;因此需要再加个「故障率」或「事故率」等伴生指标来确保安全。

坏指标中的「虚荣指标」首次出现《精益数据分析》一书中,作者简单把「PV/UV」等指标都归为虚荣指标。

刚开始时我颇为认可,但后续在实际的应用过程中,发现对于很多业务的监控,这些指标并避免不了。后续我便把「虚荣指标」更正为「把距离业务目标过远的环节定义为核心监控指标」

对于一个即时通讯 APP 来讲,下载次数、启动用户数、注册用户数需要监控,但不能作为核心监控的指标;更合适的应该是消息数或「进行过对话的用户数」。

复杂指标往往是各种「指数」,用了很多指标各种加减乘除,这会导致此类指标在发生波动时,很难分析原因。

拥有对指标的定义权和解释权是个段位非常高的事情,这要求设计者深入了解业务和拥有极高的抽象能力。

对于分析师来讲,拥有指标定义权将凸显出你在业务方的重要性——当然,这里并不是鼓励大家为了定义指标而定义指标。寻找业界已有量化方法并在公司内推广,也是件功德无量的事情。

举个美女外卖的「美女厨师率加权指导值」为例。为避免泄露商业机密,将这个原本用来衡量用户体验的指标换成「美女厨师率」,以下背景也稍作修改,大家领会精神即可:

指标的背景是为了保证用户的用餐体验,美女外卖总部提出每个城市的商家必须配备一定比例的美女厨师。但城市提出异议:不同城市拥有的商家情况不一样——大型的商家厨师多,美女厨师率会相对较低,不能用统一的值来对比所有城市。因此总部便设计出来这么一个指导值:将全国商家进行分层,每个层次的商家得出全国平均值,然后各个城市对标平均值产出自身的对标值,即「美女厨师率加权指导值」。虽然在计算上稍微复杂点,但在实际应用的过程中,BD 们只需要知道总体的差距和每一层商家的差别,很容易针对性的落地和优化。

1.1.2 建立指标体系

在根据「指标设计方法」上,如何建立起围绕业务的指标体系呢?

核心是根据业务特征确定核心指标,在核心指标的基础上以不同的角度进行拆解,然后再慢慢补充其他业务的指标情况。

拆解的时候,要做到按指标拆解而非维度。比如订单数,也可以拆解为各品类的订单数合计,这一点可以通过保持上下两层指标名称不一致来避免。拆解的过程依照金字塔方法论的「逐层拆解,不重不漏(MECE)」。若拆解出来或业务补充的指标过多,可借鉴数据仓库的「域」概念来管理这些指标,如上图的「交易域」,「商品域」和「用户域」。

在一个规范的指标体系中,已经涉及到元数据管理的领域了。包括针对指标命名的规范,数据存储和计算的管理等等。大家有兴趣地可以搜下相关文章,或阅读阿里巴巴新出的《阿里巴巴大数据实践之路》。

下面截取一张来自云栖大会的,关于指标命名规范的 PPT 给大家:

1.1.3 建设指标维度字典

这里是转转公司早期部分的指标维度字典,(Bus Matrix),一定程度上解决了之前公司内对于指标定义不清或不统一的问题。现在这套东西已经产品化,可以在可视化产品中查看和显示了。

对于暂没能力产品化的公司,建议可由分析师们通过 Google Docs 或 Wiki 对一些关键和常用的指标进行统一的维护。

对于维度总线矩阵,主要是在以维度建模的数据仓库,设计数据产品,多维度交叉分析时提供框架和基础。

1.2 明确量化重点

每个阶段,都应该明确当前的业务重点;量化体系需要根据业务阶段,更改量化重点及方式。

这同时意味着:有更细节的指标及更大的监控和推广力度。

比如外卖行业早期,经历了看重订单数,到订单额,到新客数+补贴率,到新客数+资金使用效率(交易完成进度/费用完成进度)的历程。

我们可以看到:随着战争的阶段不断升级和变化,从不计成本打下市场份额,到看中订单质量,到存量市场争得差不多了,开始考虑新客数量,同时控制补贴力度,到战争趋于常态化,开始控制整体补贴额度,靠拼效率来战胜对手。每个阶段,都需要根据不同的战场情况来判断当前重点,从而围绕该重点建立一套360度无死角的分析监控体系。

1.3 确保数据准确性

在数据准确性这个话题里,数据产品已经有成熟的数据质量管理方法;涉及了数据源,指标计算和数据呈现等各个环节的监控。

本文主要从分析师的角度阐述确保准确性的方法,数据产品相关的就先不赘述了。

  1. 采取可信来源:多来源交叉确认,采用新来源时需格外小心
  2. 确认加工方式:指标定义和加工算法
  3. Double Check:量级,计算逻辑和业务常识

这里着重讲下 Double Check 的技巧,这些技巧可以让很多管理层或投资人在不了解业务的前提下,就能判断出来数据是否有问题。

  • 量级 Check:每个数据有它的大概范围,比如 DAU,WAU 和 MAU。
  • 计算逻辑 Check:一般对于整体部分型的分数,比如市场份额,那么它必须满足:1,取值最大不能超过1;2,各部分加和应为1;3,两数字加和后,和应该在中间范围内。
  • 业务常识 Check:根据其他常用数字推算出该业务范围。如果有人跟你说某某社交 APP DAU 过亿,你大概知道是否在吹牛,因为日活过亿的 APP 就那么几个。对于 DAU/MAU,各个行业都有响应的范围值,淘宝为:34.6%,天猫15.5%,京东15.8%。

1.4 站在业务方的角度

除了「量化」之外,另外一个重点词语是「业务」。

只有解决业务问题分析才能创造价值。

价值包括个人价值和公司价值。

对于公司来讲,你提高了收入水平或者降低了业务成本,对于个人来讲,你知道怎么去利用数据解决业务问题,这对个人的能力成长和职业生涯都有非常大的帮助。

如何站在业务方的角度思考问题呢,总结起来就是八个字「忧其所虑,给其所欲」。

这里不仅适用于分析师这个岗位,在所有以供需为主要关系的交互过程里,精准理解对方需求对于供给方都是最重要的。比如 PM 对于用户,分析师对于业务方,下级对于上级。

在具体的落地过程中,主要是在这以下几个环节

  1. 沟通充分
  2. 结论简明
  3. 提供信息量及可落地建议
  4. 寻求反馈

在沟通上,确定业务方想要分析什么,提出更合理专业的衡量和分析方式,同时做好节点同步,切忌一条路走到黑。在分析业务需求上,跟很多产品需求分析方法论是类似的,需要明确所要数据背后的含义。

举例来讲,业务方说要看「页面停留时长」,但他实际想要的,可能是想衡量用户质量,那么「留存率」「目标转化率」才是更合适的指标。

在阐述分析结果上,要记得结论先行,逐层讲解,再提供论据。论据上,图 > 表 > 文字。因为业务方或管理层时间都是有限的,洋洋洒洒一大篇邮件,未看先晕,谁都没心思看你到底分析了啥。需要做到:在邮件最前面,用 1-3 句话先把结论给出来,即使需求方不看后续内容都可以了解你报告 80% 的内容。

在「提供信息量及可落地建议」上,先要明白什么叫信息量:提供了对方不知道的信息。太阳明天从东方升起不算信息量,从西方升起才是。在分析的过程中,一定要从专业的角度,从已知边界向未知边界进军,力求角度新颖论证扎实,并且根据分析内容给出可落地的建议。

举个简单例子:

寻求反馈是很多分析过程所缺乏的一步,数据分析给出去后便没有持续跟进。那你就不知道到底做得对不对。

反馈犹如一面镜子,让你及时地调整和优化自己的方法论。

二、WHAT:什么是数据分析

数据分析的本质是抓住「变」与「不变」。

「变」是数据分析的基础,如果一个业务每天订单是 10000 单,或者每天都是以 10% 的速度稳步增长,那就没有分析的必要了。而若想抓住「变」,得先形成「不变」的意识。

积累「不变」,就是养成「数据常识(Data Common Sense)」的过程。「不变」是根据对历史数据不断的观察和积累而来。一般来说会是个范围,范围越精准,你对「变」就越敏感。这里有三个个人的习惯,可以帮助养成「不变」:

  1. 形成习惯,每天上班第一时间查看数据:实时&日周月报
  2. 记住各个指标大数,反复推算
  3. 记录关键数据(榜单&报告)

大部分指标没有记住全部数字的必要,简单记住大数,万以下只需要记到万位,有些数字只需要记住百分比。 而指标之间的推算可以帮助你对各个指标的数量级关系和逻辑脉络梳理清楚,出现波动时便能更加敏感。记录关键数据是将工作生活遇到的比较有趣的榜单或数据报告保存在一个统一的地方,方便查阅和分析。

在「不变」的基础上,便能逐渐培养出指标敏感性,即意识指标偏离的能力。这主要是通过各种日环比,周月同比的监控以及日常的好奇心来保持。

这里插播一则管理林元帅的野史:林彪领军,有个习惯是记清楚每场战斗的缴获和歼敌的数量和种类。在 1948 辽沈战役寻找对方军长的过程中,发现了一个遭遇战的战报数据有了细微的变化。他从过去「不变」的基础意识到了指标偏离:缴获的短枪与长枪比例,缴获和击毁的小车与大车比例及俘虏和击毙的军官与士兵比例都比其它战斗略高。他根据这个偏离的指标迅速圈定了对方指挥所的所在地,一举端掉了对方的大本营。

我们从一个 Questmobile 2017 年春季榜单上,来简单看下「指标偏离」是怎么应用到日常的分析上的:

这里先跟大家分享下怎么看这种榜单:

  1. 看整体排行:看哪些 APP 排在前方是出乎你意料之外的
  2. 分行业看排行:看行业里排行及其变动
  3. 看增长率:哪些 APP 增长比较快
  4. 看使用时长等其他指标

这里我试着抛出几个问题:

  1. 新浪新闻竟然比腾讯新闻还高?今日头条竟然比一点资讯低?
  2. 秒拍竟然比快手高?
  3. 百度地图在榜单上比高德高,为什么去年俞永福还敢宣称活跃终端数第一位?
  4. QQ 的时长已经连续两个季度月活出现下降了,是否意味着什么?
  5. 按增长率排序,最快的王者荣耀,其次是今日头条,快手,高德地图。高德既然还算增长得较快的 APP?

数据分析的定义,还有国外一本商务分析的书籍的定义作为注脚:

三、HOW:怎么进行数据分析

任何数据分析都是「细分,对比,溯源」这三种行为的不断交叉。最常见的细分对比维度是时间,我们通过时间进行周月同比,发现数据异常后,再进行维度或流程上的细分,一步步拆解找到问题所在。如果找到了某个维度的问题,则需要溯源到业务端或现实端,确认问题产生的源头。如果多次细分对比下来仍然没有确认问题,则需要溯源到业务日志或用户访谈来更进一步摸清楚情况。

3.1 细分

以下内容在上篇《大数据与用户研究》中略有提及,这里再做一个总结。在细分方式上,主要有以下三种方式

  1. 横切:根据某个维度对指标进行切分及交叉分析
  2. 纵切:以时间变化为轴,切分指标上下游
  3. 内切:根据某个模型从目标内部进行划分

横切上,以转转举例,我们对维度和指标做做了分类和交叉,当某一类的指标出现问题时,我们便知道该从什么维度进行分析。在进行横切分析时,经常需要多个维度交叉着使用。这在数据分析术语上叫:交叉多维分析。这也是刚才讲的「维度总线矩阵」看到的各维度交叉情况了。

纵切上,有目的有路径,则用漏斗分析。无目的有路径,则用轨迹分析。无目的无路径,则用日志分析。

漏斗分析分为长漏斗和短漏斗。长漏斗的特征是涉及环节较多,时间周期较长。常用的长漏斗有渠道归因模型,AARRR,用户生命周期漏斗等等。短漏斗是有明确的目的,时间短,如订单转化漏斗和注册漏斗。在轨迹分析里,桑基图是一种常用的方式。常见于各页面的流转关系,电商中各品类的转移关系等等。日志分析,则通过直接浏览用户前后端日志,来分析用户的每一个动作。

各种手段的细分往往交叉着使用,如订单漏斗纵切完可以接着横切,看看是哪个维度的转化率导致的问题。

内切上,主要是根据现有市面上常见的分析模型,RFM,Cohort 和 Segment等方式进行分析。RFM 即最近购买时间,频率及金额三个指标综合来判定用户忠诚度及粘性。Cohort,即同期群分析,是通过对不同时期进入平台的新用户分群分析,来区分不同新用户的质量,如留存率或目标转化率等。Segment 通过若干个条件对用户分层,然后针对不同用户进行分层分析和运营,如用户活跃度分层等等。

3.2 对比

对比主要分为以下几种:

  1. 横切对比:根据细分中的横切维度进行对比,如城市和品类
  2. 纵切对比:与细分中的纵切维护进行对比,如漏斗不同阶段的转化率
  3. 目标对比:常见于目标管理,如完成率等
  4. 时间对比:日环比,周月同比;7天滑动平均值对比,7天内极值对比

时间对比严格来说属于横切对比。但因为时间这个维度在数据分析和产品中极为重要,所以单拎出来说。横切对比中,有个比较著名的数据应用方式即是「「排行榜」。通过这种简单粗暴的方式,来驱动人们完成目标,或者占领人们的认知。前者有销售完成排行榜。后者有品类售卖畅销榜。

3.3 溯源

经过反复的细分对比后,基本可以确认问题所在了。这时候就需要和业务方确认是否因为某些业务动作导致的数据异常,包括新版本上线,或者活动策略优化等等。

如果仍然没有头绪,那么只能从最细颗粒度查起了,如

  1. 用户日志分析
  2. 用户访谈
  3. 外在环境了解,如外部活动,政策经济条件变化等等

3.4 衍生模型

在「细分对比」的基础上,可以衍生出来很多模型。这些模型的意义是能够帮你快速判断一个事情的关键要素,并做到不重不漏。

这里列举几个以供参考:

  • Why-How-What
  • 5W1H
  • 5Why
  • 4P模型(产品,价格,渠道,宣传)
  • SWOT 模型(优势,劣势,机会,威胁)
  • PEST 模型(政治,经济,社会,科技)
  • 波士顿矩阵

举个例子:

最近京东和美团外卖可能会发现送货时长延长,针对物流相关的客诉增加,从 PEST 模型就可以分析出来是否在政治上出了问题。而当你在竞品做比对分析时,SWOT 或者 4P 模型能够给你提供不同的角度。

四、数据分析如何落地

以上讲的都偏「道术技」中的「术」部分,下面则通过汇总以上内容,和实际工作进行结合,落地成「技」部分。

4.1 数据分析流程和场景

根据不同的流程和场景,会有些不同的注意点和「术」的结合

4.2 数据分析常见谬误

控制变量谬误:在做 A/B 测试时没有控制好变量,导致测试结果不能反映实验结果。或者在进行数据对比时,两个指标没有可比性。

样本谬误:在做抽样分析时,选取的样本不够随机或不够有代表性。举例来讲,互联网圈的人会发现身边的人几乎不用「今日头条」,为什么这 APP 还能有这么大浏览量?有个类似的概念,叫 幸存者偏差

定义谬误:在看某些报告或者公开数据时,经常会有人鱼目混珠。「网站访问量过亿」,是指的访问用户数还是访问页面数?

比率谬误:比率型或比例型的指标出现的谬误以至于可以单独拎出来将。一个是每次谈论此类型指标时,都需要明确分子和分母是什么。另一方面,在讨论变化的百分比时,需要注意到基数是多少。有些人即使工资只涨 10% ,那也可能是 150万…

因果相关谬误:会误把相关当因果,忽略中介变量。比如,有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关,就下令削减雪糕销量。其实可能只是因为这两者都是发生在天气炎热的夏天。天气炎热,购买雪糕的人就越多,而去河里游泳的人也显著增多。

辛普森悖论:简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。

最后以几句话作为总结,也是全文中心:

  1. 数据准确性是第一位的
  2. 站在业务方的角度思考问题:忧其所虑,予其所欲
  3. 定义「变」与「不变」
  4. 细分,对比,溯源

 

  • Dec 18 / 2017
  • 0
Data

锐眼洞察 | 数据准备迈向Serverless(翻译)

作者:George Leopold

原文:Data Prep Goes Serverless

译者:TalkingData研发副总裁 闫志涛

本译文禁止商用,转载请注明作者与来源!

译者评论:

云服务正在吞噬越来越多的IT的预算,尤其是在美欧等国家。而在国内,各种云服务也取得了巨大的进展。而对于大数据分析来说,从自建数据中心到利用公有云服务的弹性来进行数据处理,也越来越变为一个趋势。对于很多公司来说,随着人员的增加,越来越多的数据科学家和数据分析师需要计算资源来进行数据的处理和建模。面向这些需求,自己购买大量的计算和存储资源显然是巨大的成本开销,而且还很难解决需求与供给间的矛盾。因此,将数据分析和建模工作迁移到云端成为一个不错的选择。而公有云提供商也意识到了这个机会,于是在公有云上提供serverless的数据准备工具就成了一个趋势。这篇文章介绍的就是相关的内容。

云供应商管理计算和存储资源的平台的兴起,为诸如serverless数据准备工具等新的服务打开了大门。自助式服务的准备工具的列表正在增长,供应商提供不同的方法来将原始数据转变为可以便于进行分析的数据。“这些工具旨在减少准备数据的时间和复杂度,从而提高分析的的工作效率”。Gartner最近在对自助服务的数据准备工具的评估中指出。这些供应商估计数据科学家花费超过80%的时间去准备他们用于分析的数据。

基于云的serveless数据准备工具正在取得重大的进展,因为数据分析师正在寻找新的ETL工具去处理他们自己的数据集,从而能够便于进行分析,他们希望这些ETL工具能够替换那些传统的用于数据仓库ETL的标准的工具。

在最近的Gartner对自助数据准备供应商的调查中获得最高分的工具包括Lavastorm和Trifacta。Google最近宣布与Trifacta合作开发称为Google Cloud Dataprep的托管Data Wrangling的测试版本。

这两家合作伙伴说,这个服务旨在利用Google云平台加速面向分析的数据准备工作。这个数据准备工具使用了Google的serverless数据准备引擎——Google Cloud Dataflow,可以根据需要来管理计算资源。

Google通过增加对BigQuery和云存储的支持扩展了Trifacta数据准备服务。

在一个使用案例中,来自物联网和其他设备的原始事件数据被放入BigQuery中,通过添加数据描述符,然后与其他数据源相结合,可以使用Looker等专门支持Google数据库的分析工具非常容易的进行查询。

在一篇博客文章中,Qubit分析产品经理Mark Rittman表示,他使用这个配置来设置BigQuery表以接收运行在Google Compute Engine虚拟机上的服务器发送的流式注入的数据。 利用Fitbit健康追踪器的数据,他利用“类似电子表格的界面”的Google工具来处理数据。

Rittman指出,目前还缺少一些对Google Cloud API的支持,例如对谷歌自然语言处理API。 他预计,Google会升级和增加更多扩展到Trificata代码中从而能够支持更多serverless分析的特性。

Serverless数据准备顺应了大数据分析从私有化Hadoop部署到公有云转变的趋势。Gartner估计全球公有云服务将会增长18%达到2470亿美金,到2020年,云服务将会占领分析市场采购的大部分预算。

 

  • Dec 18 / 2017
  • 0
Tech

锐眼洞察 | 用新的CARTO.js 4.0库制作的15个创意地图(翻译)

作者:Devon Hopkins

原文:15 Creative Maps Made with the New CARTO.js 4.0

译者:TalkingData产品副总裁 闫辉

本译文禁止商用,转载请注明作者与来源!

开发人员需要开源工具才能创建视觉效果好且功能强大的应用。CARTO和“位置智能社区”长期以来一直支持开源项目,为现代的地理空间技术的发展做出贡献,让所有公司都能利用他们的位置数据。

如今,我们很高兴地宣布CARTO.js发布4.0 beta版本。

CARTO.js是一个开源的JavaScript库,与CARTO引擎生态系统中的各种API进行交互。新版本CARTO.js 4.0提供了额外的功能来提取和过滤CARTO内的数据,以便您可以创建自定义的UI组件,例如小部件、弹出窗口、图例等等。

如果您使用的是以前版本的CARTO.js,请参阅Beta版本的文档,来了解更多关于新旧库的基本概念和工作流程变更的信息。
CARTO.js的当前测试版仅包含对JavaScript库所做的更改。未来的增强将包括对核心应用程序功能的维护。

一次黑客马拉松

我们举办了一次内部黑客马拉松展示这次Javascript库更新的功能(比如在CUBE和Google Maps上显示CARTO数据并创建完全自定义的Web应用程序),并收集来自我们内部专家的反馈。

团队有3个小时的时间来创建一个体现CARTO.js 4.0的强大功能的地图或Web应用程序。

为了给您提供一些启发,下面是他们在不到3个小时内完成的一些最酷的内容(点击图片查看浏览器中的完整地图并与之互动):

美国2006至今发生的野外火灾

fires-by-category.77819ead_.png

这个令人惊叹的地图显示了按类别颜色编码的美国野外火灾。该地图描绘了全国各地火灾密度的惊人图景,以及火灾如何按照分类和记录的有趣视角。

7只红背伯劳的季节迁徙运动

redbacked-shrike.730682a3_.png

迁移模式

这个应用漂亮地映射“红背伯劳”每年穿越大陆的鸟类迁移模式。提供七只鸟的独立路径并追踪它们在每个季节的运动情况,这张地图提供了一个动物保护地图模板,可以跟随全球不同物种。

美国地名密度图

name-map-identity.f71d374f_.png

地名可以有很大的区域图案。这张地图让用户可以探索和发现新的、意想不到的模式,在全国各地如何命名。

一个地理小游戏

trivia-game.d3d6a0a0_.png

地名冷知识游戏

在这个快速的问答游戏中,突出了CARTO可以作为教学工具的方式之一,玩家需要使用他们的世界地理知识和地图上提供的一些提示来定位给定的城市。

新骑行地图窗口小部件

bike-suffering.380f8002_.png

骑行地图

这张地图通过使用一些新的小部件来绘制图片,可视化出特定骑行的强度。饼图和折线图可以让潜在的骑手感受到旅行的难度,并且可以将这些数据聚合起来创建一个索引,就像图中每个部分遭遇分数一样。

FBS大学橄榄球运动员的家乡和学校

fbs-college-football.98395732_.png

FBS大学橄榄球

查看FBS(Bowl Division)每个队伍的大学生橄榄球运动员的家乡情况。这张地图还可以提供每个特定运动员的信息,可以让你深入了解你最喜爱的团队的招募工作。

“权利的游戏”的距离计算器

game-of-thrones-calculator.7a4b156c_.png

“权利的游戏”的距离

凛冬将至?小指头还使用远距传物吗?乌鸦比龙还快吗?为了回答这个问题,我们的团队使用CARTO.js和我们的“权力的游戏”底图来构建GoT距离计算器。根据季节发现哪个角色路途最多。

乡村旅游促活地图

tourism.486277a6_.png

旅游推广地图

这张地图旨在促进当地旅游业。这张地图有几个层次,突出住宿、餐厅和酒吧,这个地图可以为造访Moralzarzal镇的游客指明正确的路线。该地图还提供了来自当地名胜的Mapillary街景图像。

套索工具

lasso-tool.e72d9298_.png

套索工具

该地图使用套索功能来绘制形状,并专注查看自定义地理区域中的数据点。

喜欢地震的人应该住在哪里

earthquake.cba63fca_.png

你喜欢搬到爱地震的地区吗?你可能想,这个爱好可能太危险了?别担心,在这张地图上你可以找到所有美国的县,周边至少邻近最近有地震的地区。所以你可以选择一个安全的地方居住,同时接近你最喜欢的爱好。

二战后的国家演进

animated-time-border-history.b4c7b189_.png

国家演进

这个时间序列图创造性地呈现了二战后半个世纪以来的国际不稳定。通过强调国家边界线的变化,以及改变的国名,地图描绘了这个动荡时代的画面。

爆炸的动态图

giphy-explosion.89de6ebf_.png

这个有趣的用来自Giphy工具的动态GIF图做的爆炸效果试验,当你鼠标滑过地图,可以看到世界各地流行地的名字。

一支特殊力量带来的犯罪报道

london-crime.283ca384_.png

伦敦犯罪

这个地图将HighCharts图表库与CARTO.js 4.0结合在一起,创建了一个交互式小部件,用于对伦敦及周边地区对犯罪(按类型)进行映射和可视化。

冷知识游戏

trivia-game.d3d6a0a0_.png

冷知识游戏2

另一个使用CARTO.js创建的快速地理游戏,要求您输入国家/地区名称。 如果你点击正确,你赢了! 3次尝试失败后,显示正确的答案。

美国自2000年以来的污染

pollution-in-the-us.1cb9d7a7

美国的污染

这幅美丽的地图显示了过去16年来美国几个城市的污染水平。在小部件中用图表形式显示所选年限里有明显污染的地区,使用户能够根据四种不同类型的空气污染状况来细分他们的视图。

 

  • Dec 18 / 2017
  • 0
Tech

锐眼发现 | 促进新一代人工智能产业发展三年行动计划

原文:工业和信息化部关于印发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》的通知

 

促进新一代人工智能产业发展三年行动计划

(2018-2020年)

当前,新一轮科技革命和产业变革正在萌发,大数据的形成、理论算法的革新、计算能力的提升及网络设施的演进驱动人工智能发展进入新阶段,智能化成为技术和产业发展的重要方向。人工智能具有显著的溢出效应,将进一步带动其他技术的进步,推动战略性新兴产业总体突破,正在成为推进供给侧结构性改革的新动能、振兴实体经济的新机遇、建设制造强国和网络强国的新引擎。为落实《新一代人工智能发展规划》,深入实施“中国制造2025”,抓住历史机遇,突破重点领域,促进人工智能产业发展,提升制造业智能化水平,推动人工智能和实体经济深度融合,制订本行动计划。

一、总体要求

(一)指导思想

全面贯彻落实党的十九大精神,以习近平新时代中国特色社会主义思想为指导,按照“五位一体”总体布局和“四个全面”战略布局,认真落实党中央、国务院决策部署,以信息技术与制造技术深度融合为主线,推动新一代人工智能技术的产业化与集成应用,发展高端智能产品,夯实核心基础,提升智能制造水平,完善公共支撑体系,促进新一代人工智能产业发展,推动制造强国和网络强国建设,助力实体经济转型升级。

(二)基本原则

系统布局。把握人工智能发展趋势,立足国情和各地区的产业现实基础,顶层引导和区域协作相结合,加强体系化部署,做好分阶段实施,构建完善新一代人工智能产业体系。

重点突破。针对产业发展的关键薄弱环节,集中优势力量和创新资源,支持重点领域人工智能产品研发,加快产业化与应用部署,带动产业整体提升。

协同创新。发挥政策引导作用,促进产学研用相结合,支持龙头企业与上下游中小企业加强协作,构建良好的产业生态。

开放有序。加强国际合作,推动人工智能共性技术、资源和服务的开放共享。完善发展环境,提升安全保障能力,实现产业健康有序发展。

(三)行动目标

通过实施四项重点任务,力争到2020年,一系列人工智能标志性产品取得重要突破,在若干重点领域形成国际竞争优势,人工智能和实体经济融合进一步深化,产业发展环境进一步优化。

——人工智能重点产品规模化发展,智能网联汽车技术水平大幅提升,智能服务机器人实现规模化应用,智能无人机等产品具有较强全球竞争力,医疗影像辅助诊断系统等扩大临床应用,视频图像识别、智能语音、智能翻译等产品达到国际先进水平。

——人工智能整体核心基础能力显著增强,智能传感器技术产品实现突破,设计、代工、封测技术达到国际水平,神经网络芯片实现量产并在重点领域实现规模化应用,开源开发平台初步具备支撑产业快速发展的能力。

——智能制造深化发展,复杂环境识别、新型人机交互等人工智能技术在关键技术装备中加快集成应用,智能化生产、大规模个性化定制、预测性维护等新模式的应用水平明显提升。重点工业领域智能化水平显著提高。

——人工智能产业支撑体系基本建立,具备一定规模的高质量标注数据资源库、标准测试数据集建成并开放,人工智能标准体系、测试评估体系及安全保障体系框架初步建立,智能化网络基础设施体系逐步形成,产业发展环境更加完善。

二、培育智能产品

以市场需求为牵引,积极培育人工智能创新产品和服务,促进人工智能技术的产业化,推动智能产品在工业、医疗、交通、农业、金融、物流、教育、文化、旅游等领域的集成应用。发展智能控制产品,加快突破关键技术,研发并应用一批具备复杂环境感知、智能人机交互、灵活精准控制、群体实时协同等特征的智能化设备,满足高可用、高可靠、安全等要求,提升设备处理复杂、突发、极端情况的能力。培育智能理解产品,加快模式识别、智能语义理解、智能分析决策等核心技术研发和产业化,支持设计一批智能化水平和可靠性较高的智能理解产品或模块,优化智能系统与服务的供给结构。推动智能硬件普及,深化人工智能技术在智能家居、健康管理、移动智能终端和车载产品等领域的应用,丰富终端产品的智能化功能,推动信息消费升级。着重在以下领域率先取得突破:

(一)智能网联汽车。支持车辆智能计算平台体系架构、车载智能芯片、自动驾驶操作系统、车辆智能算法等关键技术、产品研发,构建软件、硬件、算法一体化的车辆智能化平台。到2020年,建立可靠、安全、实时性强的智能网联汽车智能化平台,形成平台相关标准,支撑高度自动驾驶(HA级)。

(二)智能服务机器人。支持智能交互、智能操作、多机协作等关键技术研发,提升清洁、老年陪护、康复、助残、儿童教育等家庭服务机器人的智能化水平,推动巡检、导览等公共服务机器人以及消防救援机器人等的创新应用。发展三维成像定位、智能精准安全操控、人机协作接口等关键技术,支持手术机器人操作系统研发,推动手术机器人在临床医疗中的应用。到2020年,智能服务机器人环境感知、自然交互、自主学习、人机协作等关键技术取得突破,智能家庭服务机器人、智能公共服务机器人实现批量生产及应用,医疗康复、助老助残、消防救灾等机器人实现样机生产,完成技术与功能验证,实现20家以上应用示范。

(三)智能无人机。支持智能避障、自动巡航、面向复杂环境的自主飞行、群体作业等关键技术研发与应用,推动新一代通信及定位导航技术在无人机数据传输、链路控制、监控管理等方面的应用,开展智能飞控系统、高集成度专用芯片等关键部件研制。到2020年,智能消费级无人机三轴机械增稳云台精度达到0.005 度,实现 360 度全向感知避障,实现自动智能强制避让航空管制区域。

(四)医疗影像辅助诊断系统。推动医学影像数据采集标准化与规范化,支持脑、肺、眼、骨、心脑血管、乳腺等典型疾病领域的医学影像辅助诊断技术研发,加快医疗影像辅助诊断系统的产品化及临床辅助应用。到2020年,国内先进的多模态医学影像辅助诊断系统对以上典型疾病的检出率超过95%,假阴性率低于1%,假阳性率低于5%。

(五)视频图像身份识别系统。支持生物特征识别、视频理解、跨媒体融合等技术创新,发展人证合一、视频监控、图像搜索、视频摘要等典型应用,拓展在安防、金融等重点领域的应用。到2020年,复杂动态场景下人脸识别有效检出率超过97%,正确识别率超过90%,支持不同地域人脸特征识别。

(六)智能语音交互系统。支持新一代语音识别框架、口语化语音识别、个性化语音识别、智能对话、音视频融合、语音合成等技术的创新应用,在智能制造、智能家居等重点领域开展推广应用。到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。

(七)智能翻译系统。推动高精准智能翻译系统应用,围绕多语言互译、同声传译等典型场景,利用机器学习技术提升准确度和实用性。到2020年,多语种智能互译取得明显突破,中译英、英译中场景下产品的翻译准确率超过85%,少数民族语言与汉语的智能互译准确率显著提升。

(八)智能家居产品。支持智能传感、物联网、机器学习等技术在智能家居产品中的应用,提升家电、智能网络设备、水电气仪表等产品的智能水平、实用性和安全性,发展智能安防、智能家具、智能照明、智能洁具等产品,建设一批智能家居测试评价、示范应用项目并推广。到2020年,智能家居产品类别明显丰富,智能电视市场渗透率达到90%以上,安防产品智能化水平显著提升。

三、突破核心基础

加快研发并应用高精度、低成本的智能传感器,突破面向云端训练、终端应用的神经网络芯片及配套工具,支持人工智能开发框架、算法库、工具集等的研发,支持开源开放平台建设,积极布局面向人工智能应用设计的智能软件,夯实人工智能产业发展的软硬件基础。着重在以下领域率先取得突破:

(一)智能传感器。支持微型化及可靠性设计、精密制造、集成开发工具、嵌入式算法等关键技术研发,支持基于新需求、新材料、新工艺、新原理设计的智能传感器研发及应用。发展市场前景广阔的新型生物、气体、压力、流量、惯性、距离、图像、声学等智能传感器,推动压电材料、磁性材料、红外辐射材料、金属氧化物等材料技术革新,支持基于微机电系统(MEMS)和互补金属氧化物半导体(CMOS)集成等工艺的新型智能传感器研发,发展面向新应用场景的基于磁感、超声波、非可见光、生物化学等新原理的智能传感器,推动智能传感器实现高精度、高可靠、低功耗、低成本。到2020年,压电传感器、磁传感器、红外传感器、气体传感器等的性能显著提高,信噪比达到70dB、声学过载点达到135dB的声学传感器实现量产,绝对精度100Pa以内、噪音水平0.6Pa以内的压力传感器实现商用,弱磁场分辨率达到1pT的磁传感器实现量产。在模拟仿真、设计、MEMS工艺、封装及个性化测试技术方面达到国际先进水平,具备在移动式可穿戴、互联网、汽车电子等重点领域的系统方案设计能力。

(二)神经网络芯片。面向机器学习训练应用,发展高性能、高扩展性、低功耗的云端神经网络芯片,面向终端应用发展适用于机器学习计算的低功耗、高性能的终端神经网络芯片,发展与神经网络芯片配套的编译器、驱动软件、开发环境等产业化支撑工具。到2020年,神经网络芯片技术取得突破进展,推出性能达到128TFLOPS(16位浮点)、能效比超过1TFLOPS/w的云端神经网络芯片,推出能效比超过1T OPS/w(以16位浮点为基准)的终端神经网络芯片,支持卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆网络(LSTM)等一种或几种主流神经网络算法;在智能终端、自动驾驶、智能安防、智能家居等重点领域实现神经网络芯片的规模化商用。

(三)开源开放平台。针对机器学习、模式识别、智能语义理解等共性技术和自动驾驶等重点行业应用,支持面向云端训练和终端执行的开发框架、算法库、工具集等的研发,支持开源开发平台、开放技术网络和开源社区建设,鼓励建设满足复杂训练需求的开放计算服务平台,鼓励骨干龙头企业构建基于开源开放技术的软件、硬件、数据、应用协同的新型产业生态。到2020年,面向云端训练的开源开发平台支持大规模分布式集群、多种硬件平台、多种算法,面向终端执行的开源开发平台具备轻量化、模块化和可靠性等特征。

四、深化发展智能制造

深入实施智能制造,鼓励新一代人工智能技术在工业领域各环节的探索应用,支持重点领域算法突破与应用创新,系统提升制造装备、制造过程、行业应用的智能化水平。着重在以下方面率先取得突破:

(一)智能制造关键技术装备。提升高档数控机床与工业机器人的自检测、自校正、自适应、自组织能力和智能化水平,利用人工智能技术提升增材制造装备的加工精度和产品质量,优化智能传感器与分散式控制系统(DCS)、可编程逻辑控制器(PLC)、数据采集系统(SCADA)、高性能高可靠嵌入式控制系统等控制装备在复杂工作环境的感知、认知和控制能力,提高数字化非接触精密测量、在线无损检测系统等智能检测装备的测量精度和效率,增强装配设备的柔性。提升高速分拣机、多层穿梭车、高密度存储穿梭板等物流装备的智能化水平,实现精准、柔性、高效的物料配送和无人化智能仓储。

到2020年,高档数控机床智能化水平进一步提升,具备人机协调、自然交互、自主学习功能的新一代工业机器人实现批量生产及应用;增材制造装备成形效率大于450cm3/h,连续工作时间大于240h;实现智能传感与控制装备在机床、机器人、石油化工、轨道交通等领域的集成应用;智能检测与装配装备的工业现场视觉识别准确率达到90%,测量精度及速度满足实际生产需求;开发10个以上智能物流与仓储装备。

(二)智能制造新模式。鼓励离散型制造业企业以生产设备网络化、智能化为基础,应用机器学习技术分析处理现场数据,实现设备在线诊断、产品质量实时控制等功能。鼓励流程型制造企业建设全流程、智能化生产管理和安防系统,实现连续性生产、安全生产的智能化管理。打造网络化协同制造平台,增强人工智能指引下的人机协作与企业间协作研发设计与生产能力。发展个性化定制服务平台,提高对用户需求特征的深度学习和分析能力,优化产品的模块化设计能力和个性化组合方式。搭建基于标准化信息采集的控制与自动诊断系统,加快对故障预测模型和用户使用习惯信息模型的训练和优化,提升对产品、核心配件的生命周期分析能力。

到2020年,数字化车间的运营成本降低20%,产品研制周期缩短20%;智能工厂产品不良品率降低10%,能源利用率提高10%;航空航天、汽车等领域加快推广企业内外并行组织和协同优化新模式;服装、家电等领域对大规模、小批量个性化订单全流程的柔性生产与协作优化能力普遍提升;在装备制造、零部件制造等领域推进开展智能装备健康状况监测预警等远程运维服务。

五、构建支撑体系

面向重点产品研发和行业应用需求,支持建设并开放多种类型的人工智能海量训练资源库、标准测试数据集和云服务平台,建立并完善人工智能标准和测试评估体系,建设知识产权等服务平台,加快构建智能化基础设施体系,建立人工智能网络安全保障体系。着重在以下领域率先取得突破:

(一)行业训练资源库。面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域,支持建设高质量人工智能训练资源库、标准测试数据集并推动共享,鼓励建设提供知识图谱、算法训练、产品优化等共性服务的开放性云平台。到2020年,基础语音、视频图像、文本对话等公共训练数据量大幅提升,在工业、医疗、金融、交通等领域汇集一定规模的行业应用数据,用于支持创业创新。

(二)标准测试及知识产权服务平台。建设人工智能产业标准规范体系,建立并完善基础共性、互联互通、安全隐私、行业应用等技术标准,鼓励业界积极参与国际标准化工作。构建人工智能产品评估评测体系,对重点智能产品和服务的智能水平、可靠性、安全性等进行评估,提升人工智能产品和服务质量。研究建立人工智能技术专利协同运用机制,支持建设专利协同运营平台和知识产权服务平台。到2020年,初步建立人工智能产业标准体系,建成第三方试点测试平台并开展评估评测服务;在模式识别、语义理解、自动驾驶、智能机器人等领域建成具有基础支撑能力的知识产权服务平台。

(三)智能化网络基础设施。加快高度智能化的下一代互联网、高速率大容量低时延的第五代移动通信(5G)网、快速高精度定位的导航网、泛在融合高效互联的天地一体化信息网部署和建设,加快工业互联网、车联网建设,逐步形成智能化网络基础设施体系,提升支撑服务能力。到2020年,全国90%以上地区的宽带接入速率和时延满足人工智能行业应用需求,10家以上重点企业实现覆盖生产全流程的工业互联网示范建设,重点区域车联网网络设施初步建成。

(四)网络安全保障体系。针对智能网联汽车、智能家居等人工智能重点产品或行业应用,开展漏洞挖掘、安全测试、威胁预警、攻击检测、应急处置等安全技术攻关,推动人工智能先进技术在网络安全领域的深度应用,加快漏洞库、风险库、案例集等共享资源建设。到2020年,完善人工智能网络安全产业布局,形成人工智能安全防控体系框架,初步建成具备人工智能安全态势感知、测试评估、威胁信息共享以及应急处置等基本能力的安全保障平台。

六、保障措施

(一)加强组织实施

强化部门协同和上下联动,建立健全政府、企业、行业组织和产业联盟、智库等的协同推进机制,加强在技术攻关、标准制定等方面的协调配合。加强部省合作,依托国家新型工业化产业示范基地建设等工作,支持有条件的地区发挥自身资源优势,培育一批人工智能领军企业,探索建设人工智能产业集聚区,促进人工智能产业突破发展。面向重点行业和关键领域,推动人工智能标志性产品应用。建立人工智能产业统计体系,关键产品与服务目录,加强跟踪研究和督促指导,确保重点工作有序推进。

(二)加大支持力度

充分发挥工业转型升级(中国制造2025)等现有资金以及重大项目等国家科技计划(专项、基金)的引导作用,支持符合条件的人工智能标志性产品及基础软硬件研发、应用试点示范、支撑平台建设等,鼓励地方财政对相关领域加大投入力度。以重大需求和行业应用为牵引,搭建典型试验环境,建设产品可靠性和安全性验证平台,组织协同攻关,支持人工智能关键应用技术研发及适配,支持创新产品设计、系统集成和产业化。支持人工智能企业与金融机构加强对接合作,通过市场机制引导多方资本参与产业发展。在首台(套)重大技术装备保险保费补偿政策中,探索引入人工智能融合的技术装备、生产线等关键领域。

(三)鼓励创新创业

加快建设和不断完善智能网联汽车、智能语音、智能传感器、机器人等人工智能相关领域的制造业创新中心,设立人工智能领域的重点实验室。支持企业、科研院所与高校联合开展人工智能关键技术研发与产业化。鼓励开展人工智能创新创业和解决方案大赛,鼓励制造业大企业、互联网企业、基础电信企业建设“双创”平台,发挥骨干企业引领作用,加强技术研发与应用合作,提升产业发展创新力和国际竞争力。培育人工智能创新标杆企业,搭建人工智能企业创新交流平台。

(四)加快人才培养

贯彻落实《制造业人才发展规划指南》,深化人才体制机制改革。以多种方式吸引和培养人工智能高端人才和创新创业人才,支持一批领军人才和青年拔尖人才成长。依托重大工程项目,鼓励校企合作,支持高等学校加强人工智能相关学科专业建设,引导职业学校培养产业发展急需的技能型人才。鼓励领先企业、行业服务机构等培养高水平的人工智能人才队伍,面向重点行业提供行业解决方案,推广行业最佳应用实践。

(五)优化发展环境

开展人工智能相关政策和法律法规研究,为产业健康发展营造良好环境。加强行业对接,推动行业合理开放数据,积极应用新技术、新业务,促进人工智能与行业融合发展。鼓励政府部门率先运用人工智能提升业务效率和管理服务水平。充分利用双边、多边国际合作机制,抓住“一带一路”建设契机,鼓励国内外科研院所、企业、行业组织拓宽交流渠道,广泛开展合作,实现优势互补、合作共赢。

  • Dec 15 / 2017
  • 0
Tech

锐眼洞察 | TensorFlow在企业中的应用——深度学习生态概述 ③(翻译)

作者:Sean Murphy & Allen Leis

原文:Considering TensorFlow for the Enterprise

译者:TalkingData Heisatis

本译文禁止商用,转载请注明来源与译者!

导语:本文翻译自 O’Reilly 的一篇报告,介绍了 TensorFlow 在企业中的应用,对深度学习生态进行了概述。报告篇幅较长,译文将分为三篇发布,本文为第三篇

第一篇回顾:锐眼洞察 | TensorFlow在企业中的应用——深度学习生态概述 ①(翻译)

第二篇回顾:锐眼洞察 | TensorFlow在企业中的应用——深度学习生态概述 ②(翻译)

屏幕快照_2017-12-11_下午6.36_.00_.png

第三章:深度学习框架及生态系统探索

虽然令人印象深刻,但TensorFlow本身“仅仅”是一个使用数据流图进行数值计算的开源库。 如第2章所述,有许多开源竞争者可以用来构建,训练和运行复杂神经网络的推理; 未来甚至会出现更多。深度学习框架的生态系统是围绕着这个框架本身的,不仅由原作者创建,而且还由社区建立,在不断发展的空间中形成了一个长期的解决方案。 这是TensorFlow丰富而不断增长的生态系统,迫使许多人使用它。 对每个TensorFlow组件的详细使用将超出本报告的范围,但我们将努力介绍相关的部分,并提供一些更大的整体难题的视角。

Python是生态系统力量的一个很好的例子。该语言的卖点之一是其“能力内置”的理念; 它带有一个标准的库,使许多任务(如发出HTTP请求)变得简单。即使采用这种方法,Python也将其一些成功归功于其生态系统。 Numpy和Scipy图书馆为数字和科学计算奠定了坚实的基础,扩展了语言的核心功能和使用它的社区。像scikit-learn这样的库,几乎可以作为机器学习领域的算法的参考实现,而Pandas是基于Python的数据分析的事实标准,它们建立在Numpy和Scipy的基础之上,为了帮助Python争夺数据科学首选编程语言的宝座。像Enthought和Continuum Analytics这样的公司创建了Python的分发版本,其中包括许多外部依赖造成安装困难的关键库。这简化了Python的部署,拓宽了用户群体。 IPython Notebook已经发展成为Jupyter(Julia Python R)来支持Python以外的新语言。 Jupyter正在成为数据科学,深度学习和人工智能的标准IDE。支持基于Python的深度学习库,也不仅扩展了Python的生态系统,而且也因为这个生态系统而成为可能。

我们将TensorFlow生态系统划分为几个功能类别。 第一组通过使用TensorFlow设计,构建和训练神经网络更容易,从而增加了库的直接效用。 这方面的几个例子是预建的或预训练的深度神经网络,用于跟踪训练进度的图形界面(TensorBoard)以及TensorFlow(Keras)的更高级别API。 第二类包含可以预判行为并易于管理的工具。下一个类别是用于连接到其他流行的开源项目(如Hadoop、Spark、Docker和Kubernetes)并与之交互的组件。 最后一类是减少训练深度神经网络的时间和成本的技术,因为这通常是需要进一步发展的部分。

这个部分大致上遵循TensorFlow工作流程的三个阶段:(1)数据准备、(2)训练、(3)推理和模型服务。 我们不会把太多的精力放在准备用于TensorFlow的数据上;假设从其他类型的机器学习过渡到现在的企业已经有了清理,准备训练数据的机制。 图3-1显示了生态系统如何与整个工作流程保持一致。

3-1.png

图3-1 TensorFlow生态系统各个部分与整个工作流程之间的一致性

1. 改进网络设计和训练

以下工具和开源项目能够帮助软件工程师和数据科学家设计、构建和训练深度学习模型,力求为TensorFlow用户创造即时的价值。如果您是新手,我们建议您以相关的预建神经网络为出发点,然后仔细研究Keras,这可以简化复杂网络的创建并为模型提供一些便捷性。 如果您的应用程序涉及序列数据(文本、音频、时间序列等),请不要跳过Tensor2Tensor。 无论你的经验水平如何,期望你使用TensorBoard。

估计

TensorFlow为机器学习(tf.estimator)提供了一个更高级别的API。 它包含许多内置的模型——线性分类、线性回归、神经网络分类、神经网络回归以及组合模型,并支持更快速地配置、训练、预测和评估。

预建神经网络

深度神经网络设计仍然是一种学术追求和艺术形式。 为了加速DL的使用,TensorFlow附带了许多可供即时使用的示例神经网络。 在开始任何项目之前,请检查此目录以查看是否有可用的跳转启动。 特别值得一提的是Inception网络,这是一种卷积神经网络,在2014年的ImageNet大规模视觉识别挑战中,在分类和检测方面都表现出最好的效果。

Keras

Keras是一个用Python编写的高级API,专为人类在尽可能短的时间内构建和实验复杂的神经网络而设计。 您可以使用Keras作为TensorFlow的模型定义抽象层,也可以与其他TF相关的工具兼容。 有趣的是,Keras提供了一个将网络从一个深度学习库转移到另一个深度学习库的潜在可移植性途径,与实现标准模型抽象最接近。 目前它不仅能够在TensorFlow上运行,还能在Theano、Microsoft Cognitive Toolkit以及最近的MXNet上运行。 此外,Keras是Deeplearning4J的Python API。

用于TensorFlow的机器学习工具包

该工具包提供了开箱即用的高级机器学习算法(参见下面的列表),该算法受流行的scikit-learn库的启发,可立即使用,优于使用TF的低级API重写算法。

  • 神经网络(DNN,RNN,LSTM等)
  • 线性和逻辑回归
  • K-means聚类
  • 高斯混合模型
  • WALS矩阵分解
  • 支持向量机(L1和L2正则化)
  • 用于上下文优化的随机双重坐标上升
  • 随机森林
  • 决策树

重要的是,所有这些算法都具有分布式实现,并且可以并行执行跨机器,与非并行实现相比,性能显著提高。

Tensor2Tensor(T2T)

T2T是一个建立在TensorFlow之上的开源系统,用于支持最先进的深度学习网络的开发和训练,特别关注sequence-to-sequence模型(用于翻译文本或为图像提供说明)。这个在2017年发布的库正在被Google Brain团队积极使用、开发、维护和支持。 它还包括以下内容:

  • 许多包含不同类型的数据的数据集(文本,音频和图像)
  • 超参数配置
  • 最近的一些学术论文中的最佳模型,包括:

– “Attention Is All You Need”

– “Depthwise Separable Convolutions for Neural Machine Translation”

– “One Model to Learn Them All”

该软件的目标是提供比基本TensorFlow API更高的抽象级别,并将许多最佳实践和交易中的难学“技巧”封装到软件中,在所有软件之间实施标准化接口。

TensorBoard

机器学习通常很难形象化,神经网络一直被批评为黑盒子,几乎没有透明的内部工作。 深度网络图可能难以可视化。 很多图层中的数据流很难原位观察甚至后验。 从实践者的角度来看,了解和调试神经网络可能是非常困难的。

TensorBoard是一个可视化工具的集合,提供对TensorFlow图形的洞察,并允许开发人员或分析人员了解、调试和优化网络。 这些工具的用户界面是基于浏览器的。 它提供了三个核心功能:

图表结构的可视化

理解一个神经网络的第一步,可以由几十层,几十万个节点或更多的网络组成,从视觉上检查和验证网络的结构。

摘要的可视化

TensorBoard允许您附加总结,以捕获在训练和执行过程中流过图表的各种张量。 这些张量可以表示输入数据或网络权重,直方图显示网络权重或网络中其他张量如何随时间变化。

嵌入式可视化器

TensorBoard还允许您在三维界面中显示机器学习结果。

通用的功能是很方便使用的,例如学习期间的图表汇总统计。 您还可以深入了解特定图层的输出以运行您自己的分析。 这使得可以在这些值作为下一层的输入之前审查来自一层的输出分布。 TensorBoard读取序列化的TensorFlow事件数据。 尽管某些功能和可视化功能是在没有设置的情况下自动提供的,但其他功能和可视化功能需要更改代码才能捕捉要显示的数据,并且您可以选择收集摘要信息的节点或对象。

谷歌有持续的TensorBoard发展的大目标。 首先,TensorFlow调试器将与TensorBoard集成在一起,以便您可以通过此工具可视化调试信息。 接下来,TensorBoard即将支持允许复杂和定制可视化的插件,这些插件可用于在各种问题领域中查询具有独特可视化需求的特定神经网络类型。 最后,Google计划发布一个“组织级”的TensorBoard,不仅为个人而且为团队设计,以便结果可以迅速传播,共享的发展历史可以继续保持。

TensorFlow调试器

TensorFlow带有一个专门的调试器(tfdbg),它可以在通过TensorFlow图形进行训练和推理时自动检测任何数据。 TensorFlow(tdb)有一个有趣的第三方开源调试器,具有强大的可视化功能。 这被作者描述为:“TDB之于TensorBoard,就像GDB之于printf。 两者在不同的情况下都是有用的。”然而,作者Eric Jang显然是被Google Brain聘用的,外部的努力已经被放弃了。

2. 部署网络用于预测

由于需要大量的计算需求,深度学习训练通常会承担大部分压力。 但是,如果没有人使用深度神经网络,那么最新的深度神经网络是没有价值的。 以强大、可扩展和高效的方式提供预测功能对于深度学习库和生态系统的成功至关重要。

TensorFlow Serving

训练结束后,企业将面临如何运行深度学习网络和机器学习模型的决策。 将会有一些用例,例如在研究、实验或者异步预测/分类活动中,交互性是不需要的。 然而,在许多情况下,企业将希望为面向用户的应用程序提供实时预测(如移动应用程序中的对象检测,例如HBO硅谷的“Not Hotdog”应用程序),人为决策支持或自动化指挥和控制系统;这就要求将先前训练过的网络投入生产进行预测。

部署机器学习模型带来的需求在设计生产系统方面打开了潘多拉盒子。 我们如何提供最高水平的表现? 如果我们需要为不同的操作公开多个模型呢? 我们如何管理部署过程或处理多个模型版本的配置管理?

TensorFlow Serving提供了一个面向生产的高性能系统来解决这个模型部署的问题;它托管TensorFlow模型并允许远程访问它们以满足客户端请求。 重要的是,所提供的模型是可版本化的,使得用新的权重或迭代更新网络变得容易,同时维护独立的研究和生产分支。 您无法通过浏览器发出HTTP请求来与TensorFlow服务进行通信。 相反,构建在C++上的性能的服务器实现了gRPC接口。 gRPC是Google的远程过程调用框架,旨在以可扩展的方式高效地连接数据中心内的服务。 因此,需要建立一个客户端来与服务器通信。 深度学习和机器学习模型必须以Google的protobuf格式保存。 TensorFlow服务可以在CloudML中或通过使用Docker / Kubernetes进行(自动)扩展。

进程内服务

在某些情况下,组织可能不想部署TensorFlow Serving或不能使用TensorFlow Serving RPC服务器来为模型提供服务。在这些情况下,通过在应用程序中包含核心TensorFlow库,您仍然可以直接使用保存的模型。进程内服务提供了一种非常轻量级的机制来提供预测功能,但TensorFlow Serving所提供的好处却没有,比如自动请求批处理或模型版本控制。

举个例子,我们来考虑一个用Python库Flask构建的基本网站。该网站将允许用户使用深度卷积神经网络来上传图像并识别图像内的对象。从我们的角度来看,有趣的部分发生在用户上传照片之后,并且经过训练的卷积神经网络被加载之后。一旦收到照片,Flask服务器将显示网络输入照片,执行预测,并返回结果。所有的预测能力都将由TensorFlow库提供,这些库很容易被基于Flask的Web服务器调用。类似的方式也可以用在移动设备上(请参阅http://tensorflow.org/mobile)

3. 与其他系统集成

企业正在考虑采用的新技术的一个重要方面是如何适应现有的企业基础架构。 尽管当今的大数据格局非常拥挤和复杂,但是有一些明显的技术在许多行业的大数据栈中发挥作用。

数据摄取选项

深度学习的关键是大量的数据,必须清理、调整,然后用于训练神经网络。为了达到这个目的,数据集是必须事先准备的。 幸运的是,我们有很多选择。 首先,TensorFlow支持在TFRecords中的协议缓冲区上建立自己的本地TensorFlow格式(tf.Example和tf.SequenceExample)。 请注意,Apache Beam对TFRecords有本地支持。 其次,稍微慢一些,TensorFlow内置了读取JSON,逗号分隔值(CSV)和Avro数据文件的功能。 最后,最终用户可以使用Python来读取数据,包括Pandas数据表中的数据。 因为最后一个选项最慢,所以最好进行测试和实验。 最后,TensorFlow支持几种不同的分布式存储选项,包括Apache Hadoop HDFS、Google Cloud Storage和Amazon Elastic File System。

TensorFlowOnSpark

雅虎非常友好地开放源代码,允许分布式TensorFlow训练和预测运行在为Apache Spark构建的集群上。 从企业角度来看,这可能非常强大,因为许多希望使用TensorFlow的公司可能已经在使用Spark进行数据分析和机器学习 。 因此,组织可以重新使用现有的集群资产,而不是单独设置单独的基础设施来进行深入学习,从而使转换变得更加容易。 此外,这可以减轻将数据从一个集群转移到另一个集群的需求——这是常常一个痛苦且耗时的过程。

从策略的角度来看,TensorFlowOnSpark与TensorBoard兼容,甚至在集群设置训练期间配置Spark执行器来运行Tensorboard。 该API是最小的,使其快速学习和使用,只需要很少的变化便能通过现有的TensorFlow代码运行。

TensorFlowOnSpark提供了三个方面的手段:

  • 在spark中启动/配置TensorFlow群集
  • 通过将Spark的弹性分布式数据集(RDD)转换为feed_dict将数据馈送到TensforFlow图
  • 完成后关闭TensorFlow群集

为了最大限度地利用Spark,你需要运行TensorFlow程序,这个程序将完全饱和资源;否则,性能不会像任何分布式应用那样线性扩展。 在缺点方面,TensorFlowOnSpark并不完全符合所有的社区项目(如Keras)。 此外,在Java虚拟机(JVM)中运行的Spark可能会在失败时提供一些相对难以理解的错误消息。 无论如何,如果您的企业已经在使用Spark群集,这可能是运行分布式TensorFlow进行训练的最简单方法。

“Ecosystem” Repo

“Ecosystem” Repo是Google公司在GitHub上的一个Apache 2.0许可的开放源代码存储库,其中包含将TensorFlow与众多开源软件集成在一起的示例:

Docker:

Dockerfiles中的一组示例,用于构建具有各种TensorFlow配置的容器。

Kubernetes:

用于在Kubernetes上运行分布式TensorFlow的YAML模板文件。

Marathon (on top of Mesos):

在Marathon中运行的TensorFlow的配置文件,Mesos的容器流程,它是一个集群管理器。

Hadoop:

使用TRRecords格式实现Apache Hadoop MapReduce的InputFormat / OutputFormat。

Spark-tensorflow-connector:

用于读取和写入Spark 2.0+ SQL DataFrame中的TensorFlow记录(TFRecords)的库。

考虑“生态系统”回购的一个起点,探索如何将TensorFlow与其他软件集成在一起。

4. 加速训练和预测

训练深度神经网络需要大量的计算能力,通常超过了通用微处理器集群可以提供的功能。 然而,随着深度学习的价值越来越明显,寻求更高性能的硬件变得至关重要。 GPU很快就被用于这个任务,后来,为这个用例专门设计的定制硬件也在开发中。 需要注意的是,如果没有足够的训练数据和足够的计算能力,深度学习将是无关紧要的,并且如今也不会取得的如此令人印象深刻的成功。

GPU和CUDA

使用图形处理单元(GPU)以大规模并行方式执行浮点计算已经引起了近二十年来重视性能的程序员的兴趣。 实际上,GPU上的通用计算(GPGPU)这个术语是在2002年创造的。NVIDIA一直是这个用例的一个长期推动者,并为公司的GPU开发了其专有的计算统一设备架构(CUDA)作为并行计算平台和编程模型。

训练深度学习网络已经成为这个领域的杀手级应用,NVIDIA借助NVIDIA深度学习软件开发套件(NVIDIA Deep Learning Software Development Kit)增强了其CUDA产品,该套件包含一个GPU加速的神经网络(称为cuDNN)所需的关键原语库。训练深度网络,与英特尔最快的CPU相比,使用NVIDIA提供的最快的GPU可以提供10到100倍的加速。

张量处理单元

在2016年5月世界了解Google IO的谷歌张量处理单元(TPU)之前,GPU被用于加速深度神经网络的基准。第一代TPU于2016年5月在Google I / O会议上宣布, 加速预测工作量(不是训练)使用量化的整数算术,而不是浮点。 第一个第一代TPU的优秀技术概况在网上发布,过去一年中提供了一篇非常全面的技术文章,可在线获得。重要的是,这个第一代TPU已经在Google的数据中心 一年多的时间,并帮助谷歌的AlphaGo赢下了世界冠军李世乭。

第二代TPU于2017年发布,可进行预测和训练,并进行浮点运算。 每个单独的处理器提供45 teraflops的性能,并被安排到一个四芯片,180 个teraflop的设备。 64个这样的设备组装成一个容器,提供了11.5千万亿次的深度学习性能。对于任何面向服务器的处理器来说,这两个芯片的关键在于它们不仅提供令人印象深刻的浮点性能,而且 比传统处理器消耗更少的电力。

为什么这对企业来说很重要? 因为TPU降低了模型训练所需的成本和时间。 尽管Google没有出售TPU的计划,但通过Google的云产品可以提供这种功能。 此外,考虑到公司控制整个堆栈,Google有一些有趣的选择可以在软件和硬件上进行优化。 Google并不是这个领域唯一的公司。 英特尔于2016年8月收购了一家定制芯片加速深度学习的小公司Nervana。

Google Cloud TPU和CloudML

Cloud TPU是目前提供alpha版本的Google Cloud服务,使用户能够使用第二代TPU对机器学习模型进行训练和预测。 您可以使用标准虚拟机和自定义虚拟机类型连接到Cloud TPU,该产品还与其他Google云端平台产品(包括Google Compute Engine和BigQuery)完全集成。这是企业利用Google TPU的最直接方式。Google还通过云计算机学习引擎(Cloud ML)的一些功能间接公开TPU。

5. 本章小结

对于任何采用深度学习的企业来说,面临的问题是如何融入组织现有的工作流程和数据通道。 TensorFlow数据流水线由三个阶段组成:(1)数据准备、(2)模型训练、(3)模型服务和预测。 这三个都直接从TensorFlow库和新兴的生态系统获得了大量的支持。 这个数据流水线与企业中的传统机器学习流水线非常相似,但有一个显着的区别。 对于深度学习模式,模型训练会花费更多的时间和资源。 生态系统试图通过支持多个GPU甚至Google自己的TPU来弥补这种情况。

参考资料:

  • Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott E. Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich, “Going Deeper with Convolutions”, Computer Vision and Pattern Recognition (2015).
  • N.P. Jouppi et al., “In-Datacenter Performance Analysis of a Tensor Processing Unit”, Proceedings of the 44th Annual International Symposium on Computer Architecture (June 2017): 1-12.
  • Patrick Kennedy, “Google Cloud TPU Details Revealed,” STH, May 17, 2017, https:// www.servethehome.com/google-cloud-tpu-details-revealed/.
  • Cloud TPUs – ML accelerators for TensorFlow | Google Cloud Platform.

结论

本报告试图介绍深度学习,以及它的使用和使用TensorFlow的企业会遇到的核心问题。我们首先介绍了深度学习的情况,特别是与更传统的机器学习技术相比较,并且盘点了一些使用了深度学习技术的最新应用。如果您的组织对使用音频、视频、图像或自由文本数据感兴趣,深入学习是值得探索的。接下来,我们盘点了深度学习的各种框架,特别关注以企业为中心的库,包括微软的Cognitive Toolkit、MXNet和Deeplearning4J。最后,我们讨论了TensorFlow库和现有的生态系统,以了解各种组件如何补充图书馆的核心功能,并协助网络训练和预测。我们希望这个概述能够帮助企业内的决策者和技术领导者驾驭不断发展的深度学习世界。

关于作者

Sean Murphy是PingThings Inc.的联合首席执行官,这是一家以人工智能为核心的创业公司,将先进的数据科学和机器学习带入全国的电网。在获得马里兰大学数学与电子工程双学士学位后,Sean在约翰·霍普金斯大学(Johns Hopkins University)的生物医学工程专业毕业,获得荣誉学位。他在约翰霍普金斯大学应用物理实验室担任高级科学家十多年,主要从事机器学习、高性能、云计算、图像分析和异常检测。从科学转向MBA课程,他毕业于牛津大学。他利用自己的商业头脑创建了一家电子邮件分析公司和一家数据科学咨询公司。 Sean还曾担任A系列资助的医疗保健分析公司的首席数据科学家,以及精品研究生教育公司Manhattan Prep的研究和指导主任。他是多个学术领域的多本书和数十篇论文的作者。

Allen Leis是一位经验丰富的数据工程师,有时也是一名数据科学家,位于华盛顿。他以前的工作需要为美国海军、美国参议院和非营利组织开发网络系统,他目前致力于数据分析的技术“狂野西部”以及机器学习。 Allen目前担任各种数据科学初创公司的顾问和软件工程师,以引导他们的数据摄入、清洗和机器学习。 除了投身于解决大数据工程和分布式计算问题,他平常会参与乔治敦大学数据科学证书课程的教学,或沉迷于马里兰大学计算机科学研究生的课程。

(全文完,感谢阅读)

  • Dec 15 / 2017
  • 0
Tech

锐眼洞察 | TensorFlow在企业中的应用——深度学习生态概述 ②(翻译)

作者:Sean Murphy & Allen Leis

原文:Considering TensorFlow for the Enterprise

译者:TalkingData Heisatis

本译文禁止商用,转载请注明来源与译者!

导语:本文翻译自 O’Reilly 的一篇报告,介绍了 TensorFlow 在企业中的应用,对深度学习生态进行了概述。报告篇幅较长,译文将分为三篇发布,本文为第二篇

第一篇回顾:锐眼洞察 | TensorFlow在企业中的应用——深度学习生态概述 ①(翻译)

屏幕快照_2017-12-11_下午6.36_.00_.png

第二章:选择一个深度学习框架

当决定采用深度学习时,第一个问题就是你应该选择哪个深度学习库(以及为什么)?深度学习已经成为许多大型科技公司的重要差异化因素,每一个都已经发展或正在倡导一个特定的选择。如谷歌的TensorFlow,微软的认知工具包(又名CNTK)。亚马逊正在支持学术界建造的MXNet,这导致有人质疑其内部开发的DSSTNE(Deep Scalable Sparse Tensor Network Engineer)的寿命。百度拥有并列分布式深度学习(PADDLE)库。 Facebook有Torch和PyTorch。英特尔拥有BigD等等。毫无疑问未来还会有更多选择出现。

我们可以对各种深度学习库进行评估,包括性能,支持的神经网络类型,易用性,支持的编程语言,作者,社区的支持等等。为了提高竞争力,每个库应该支持使用图形处理单元(GPU),最好是多个GPU和分布式计算集群。表2-1总结了十几种可用的顶级开源深度学习库。

图2-1.png

表2-1 12个选定深度学习框架的一般信息和GitHub统计信息(每个适用列中的“最佳”值以粗体突出显示)

支持的编程语言

几乎所有表内列出的框架都是用C ++实现的(可以使用Nvidia的CUDA进行GPU加速),但是在Lua中有后端的Torch和为Java虚拟机(JVM)写了后端的Deeplearning4J。使用这些框架的一个重要问题是他们支持哪些编程语言进行魔性训练,允许神经网络从数据中学习并更新内部权重的计算密集型任务,以及支持哪种语言进行推断,通过之前训练得到模型和新数据获得预测值。

由于推断是生产中比较常见的任务,人们可能会争辩说,库支持推理的语言越多,插入现有企业基础架构就越容易。一般来说训练过程需要专业技术,支持的语言可能会比较有限。理想情况下,一个框架需要可以支持这两个任务的同一套语言。

不同类型的网络

有许多不同类型的神经网络,学术界和工业界的研究人员几乎每天都在开发具有相应新缩写词的新网络类型。例如前馈网络、全连接网络、卷积神经网络(CNN)、受限玻耳兹曼机器(RBM)、深度信念网络(DBN)、自动去噪编码器、堆叠去噪自动编码器、生成对抗网络(GAN) 、循环神经网络(RNN)等等。如果要用图形或列表来表示不同的神经网络类型/结构,神经网络俱乐部是一种初步的选择。

已经受到广泛关注的两种网络类型是卷积神经网络,其能够处理图像作为输入,以及可以处理时序数据的循环神经网络及其变体(例如LSTM),支持将句子中的文本、时间序列数据、音频流等等作为输入。企业选择的深度学习库应该支持最广泛的网络,至少需要尽量与业务需求相关。

部署和操作选项

尽管机器学习和深度学习通常需要大量的训练数据,但深度学习确实预示着从大数据向大型计算的过渡。 对于企业来说,这可能是最大的问题和潜在的障碍,从更传统的机器学习技术过渡到深度学习。训练大规模的神经网络可能需要几周甚至几个月的时间;因此即使是50%的性能增益也能带来巨大的收益。 为了使这个过程变得可行,训练网络需要大量的原始计算能力,这些计算能力通常以一个到多个GPU,或专用处理器的形式出现。 理想情况下,一个框架将支持单CPU、多CPU、GPU环境以及他们的异构组合。

无障碍的帮助

提供帮助的程度对于库的实用性和成功性而言是非常重要的组成部分。 文档量是衡量平台是否成功(及其潜在寿命)的有力指标。大量的文档促使用户容易选择和使用库。 随着生态系统的不断发展,在线教程、电子书籍和在线图书、视频、在线和离线课程,甚至会议等多种形式的文档都是需要的。特别要注意的是企业商业支持的问题。尽管上述所有库都是开源的,但只有一个库提供直接的商业支持:Deeplearning4J。 第三方很可能会更愿意提供咨询服务来支持每个库的使用。

1. 企业级的深度学习

从十几个深度学习框架中进行选择,我们对其中四个更适合企业生产环境部署的库进行了深入研究:TensorFlow、MXNet、Microsoft Cognitive Toolkit和Deeplearning4J。 为了大致估算受欢迎程度,图2-1显示了按Google搜索量衡量的搜索词相对全球范围内的兴趣。

图2-2.png

图2-1 在深度学习开源框架中,全球搜索“随时间推移的兴趣” 最大相对值(100)出现在在2017年5月14日这周

TensorFlow

Google在处理大规模数据方面有着丰富的历史经验,运用机器学习和深度学习为消费者和企业创造有价值的服务。 当Google发布开源软件时,业界都会比较关注,特别是有新版本发布时。 2011年,Google内部使用名为DistBelief的系统进行深度学习,该系统能够使用“大规模机器集群在深度网络中分发训练和推理”。凭借多年运营这个平台的经验, Google最终于2015年11月发布了 TensorFlow。

TensorFlow是用于表达机器学习算法的界面,以及用于执行这种算法的实现。 使用TensorFlow表达的计算可以在各种各样的异构系统上执行,从移动设备(例如手机和平板电脑)到大型分布式系统(数百台机器)以及数千个计算设备(如GPU)。 该系统是灵活的,可以用来表达各种各样的算法,包括深度神经网络模型的训练和推理算法,它已经被应用在十几个计算机科学等研究领域,进行机器学习系统部署和投产, 例如语音识别,计算机视觉,机器人学,信息检索,自然语言处理,地理信息提取和计算药物成分等。

有些人认为这是一个赢家通吃的领域,可以说TensorFlow已经赢得了开发者的心。 虽然这个声明可能还为时过早,但TensorFlow目前拥有令人印象深刻的源动力。 几乎所有的指标都显示,TensorFlow都是深度学习领域最活跃的开源项目。 现在已经产生了相当多有关TensorFlow的书籍和高端会议。以Google搜索量衡量,已经获得了全球范围内广泛的关注和兴趣,并且具有最多的有关活动聚会。 对竞争对手来说,这种领先将很难被超越。

MXNet

MXNet是我们将深入研究的最新的深度学习框架。 它于2017年1月进入Apache孵化,截至2017年10月的最新版本是目前已经发布 1.0 正式版。 问题是,由于其比较新而且竞争对手很强大,企业是否应该考虑到这种替代性的深度学习框架呢? 亚马逊在2016年11月宣布:“Apache MXNet是AWS 选择的深度学习框架”。 MXNet背后的创始机构之一,卡内基梅隆大学和CMU机器学习系教授Alexander Smola博士,2017年7月加入亚马逊可能并非巧合。

为了进一步证明MXNet 的竞争力,最新的框架版本允许开发人员将MXNet深度学习模型转换为Apple的CoreML格式,这意味着数十亿iOS设备现在可以为使用MXNet的应用程序提供推理功能。 另外请注意,苹果公司是与上述任何一个深度学习框架都没有关联的大型科技公司。

什么是MXNet,它是如何改进现有的库的?

MXNet是一个多语言机器学习库,用于简化机器学习算法的开发,特别是深度神经网络。 嵌入在宿主语言中,它将声明性符号表达式与命令张量计算相结合。它提供了自动分化来推导梯度。 MXNet具有计算和内存的高效性,可运行在各种异构系统上,从移动设备到分布式GPU集群。

MXNet是由许多顶尖大学(包括CMU,麻省理工学院,斯坦福大学,纽约大学,华盛顿大学和阿尔伯塔大学)合作而成的。从其最近的开发情况看,作者有机会已有的深度学习框架中学习并改进。 框架努力提供灵活性能。 开发人员可以混合使用符号和命令式编程模型,并且可以通过动态依赖调度程序来并行化两者。 开发人员还可以利用预定义的神经网络层来构建复杂的网络,代码很少。 重要的是,MXNet远不止支持Python。 它也具有完整的Scala、R、Julia,C ++、甚至Perl的API。 最后,MXNet代码库很小,专为在GPU和CPU上进行高效扩展而设计。

微软认知工具包(CNTK)

尽管互联网崛起,微软仍然是企业领域的主要厂商之一。 因此,微软研究院推出深度学习框架应该是不足为奇的。 以前称为“计算神经工具包”(CNTK),该工具包显然是从微软研究院的世界级语音识别团队中涌现出来的,然后推广到其他问题集。 2014年出现了第一篇综合报告,2016年1月在Github上发布了该软件。2016年,该软件在会话语音识别领域取得了人类的表现。 与竞争对手相比,该工具包有望实现高效的可扩展性和令人印象深刻的性能。

Deeplearning4J

Deeplearning4J在这个列表中有些奇怪的框架。 尽管Python已经成为深度学习的近乎事实上的首选语言,但Deeplearning4J是在Java中开发的,旨在使用JVM并与基于JVM的语言(如Scala、Clojure、Groovy、Kotlin和JRuby)兼容。 请注意,底层计算采用C / C ++和CUDA编码。 这也意味着Deeplearning4J可以同时支持Hadoop和Spark。 其次,许多早期的深度学习框架是由学术界出现的,而第二波则是由大型科技公司兴起的。 Deeplearning4J是不同的,因为它是由一个位于旧金山的小型科技创业公司(Skymind)在2014年创建的。尽管Deeplearning4J是开源的,但还是有一家公司愿意为使用该框架的客户提供付费支持。

2. 行业观点

Jet.com提供了深度学习库选择的一个有趣的例子。 Jet.com是一家从上到下采用微软技术栈的公司,是美国为数不多的专注于F#编程语言的商店之一(他们也使用C#和.NET框架)。 对于云服务,该公司使用Microsoft Azure。 尽管重度依赖微软,Jet.com还是使用TensorFlow进行深度学习。 该公司最初是从Theano开始的,但在TensorFlow 发布之后迅速转换到了TensorFlow。

TensorFlow运行在具有在Microsoft Azure云中运行的GPU的虚拟实例上。

作为一家技术创业公司,PingThings在选择不同的技术方面有很大的余地。 Google在这个领域的突出地位以及大量的文档和教程都是选择TensorFlow的强大动力。 然而,PingThings正在与国家科学基金会(NSF)和高级研究计划署能源(ARPA-E)资助的项目与多个研究机构的合作者合作,同时在公用事业部门内部署硬件。 因此,Google设计TensorFlow来平衡研究和大规模运营的需求是非常重要的事实。 Tensor2Tensor(我们稍后讨论的生态系统的一部分)特别吸引人,因为它专注于序列数据。 MXNet是一个有趣的新选项,未来的发展将受到关注,特别是考虑到其卓越的性能和亚马逊的支持。

3. 本章小结

TensorFlow做得非常好:有竞争力的性能,对不同神经网络类型的强大支持,大量的硬件部署选项,支持多GPU、多种编程语言选项等等。然而,库的魅力超越了这个功能集。Google通过分布式文件系统和Map-Reduce计算框架的结合,在帮助启动大数据革命方面发挥了重要作用,并在今天继续领跑业界。 此外,谷歌内部有许多成功的技术迭代,然后看到广泛的发布。受欢迎的容器编排系统Kubernetes就是这样一个例子,它是早期内部系统(如Borg和Omega)的多年经验和教训的结果。谷歌在网络技术和软件工程方面的推进规模,学术界和工业界之间的平衡,似乎特别适合于深度学习的淘金热。

TensorFlow继承了这种合理性,目的是充分灵活地进行深入的研究,同时也足够强大,以允许其模型的生产部署。未来可能会出现更新的框架,可以借鉴TensorFlow的经验教训,改进库的各个方面,提供多种编程方法,或提供更高的性能。上述许多库都试图做一个或多个这样的事情。 然而,TensorFlow正在不断应用这些教训,努力提高性能并探索新的方法。 只要Google的重量和努力落在TensorFlow后面,它将继续成为深度学习库的一个强大、安全、实际上默认的选择,特别是考虑到我们在第3章中描述的生态系统。

参考资料:

  1. J. Dean et al., “Large Scale Distributed Deep Networks,” Advances in Neural Information Processing Systems 25 (2012).
  2. M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G.S. Corrado et al., “TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems”, preliminary white paper (2015).
  3. T. Chen et al., “MXNet: A Flexible and Efficient Machine Learning Library for Hetero‐ geneous Distributed Systems”, NIPS Machine Learning Systems Workshop (2016).
  4. A. Agarwal et al. (2014). “An Introduction to Computational Networks and the Com‐ putational Network Toolkit”, Microsoft Technical Report MSR-TR-2014-112 (2014).

(未完待续)

  • Dec 15 / 2017
  • 0
Data

锐眼洞察 | 隐私合规新时代(翻译)

作者:Dimitri Sirota

原文:Always New Era Continuous Privacy Compliance

译者:TalkingData全球业务负责人 戴民

本译文禁止商用,转载请注明来源与译者!

距欧盟GDPR实施仅几个月,就有越来越多的企业在思考应该做些什么,使其业务符合新规的要求。很多企业首先尝试的是做一些基于隐私影响评估(PIA)的调查,因为对于隐私领域的专家来说,这是他们最熟悉的方法。但是新规GDPR的核心是数据保护,包括数据安全和数据责任。这两者中的任何一个都不能通过调查来实现。要想满足这两个要求,需要丰富的数据知识以及具备监测变化、风险活动以及潜在违规行为的能力。PIA在应用过程中能发挥其应有的作用,但是在隐私设计和隐私运营方面,只有数据驱动的持续隐私监测才可以做到。

事与愿违

近年来,数据违规行为风行,个人数据错误使用事件频发。为应对此类问题,立法者和监管者想方设法制定各种措施来保护数据。但是,如果对储存的个人数据没有进行详细的统计计算,很多措施是无法实施的。这在很多方面也反映了很多企业在保护其最隐私的信息资产的方式发生了巨大变化。

隐私领域的专家过去是通过制定更合理的政策和流程来保证合规性,而PIA在某些方面就是用来衡量政策和流程的有效性。但是证据显示,数据违规发生的频次和范围仍在加剧。这无疑证明调查研究在数据保护、数据隐私和数据政策方面是无效的。通过主观评测或者不完整的调查问卷来降低数据风险几乎是不可能的。管控风险应从制定客观精准的衡量指标开始。

数据风险在不断演化

过去几年,在评估第三方风险和供应商风险管理领域,客观风险评价指标发生了几次演化。过去,第三方风险也是通过表格或者问卷的形式进行评估的。然而,这种形式也限制了评估的重复性、客观性和预测性。因此,最近几年,第三方风险评估变得更加实用,对于那些想降低风险的人来说,这种结果性评估能够为他们提供一定的指导。

随着BigID几个工具的发布,这些工具主要是用于寻找、匹配和分析个人数据。风险评估已经从过去的基于调查的主观性评估,转化为数据驱动的持续性风险评估。了解数据收集或加工是否超过法律或者商业政策的红线,已经成为了数据监测的一个功能。数据合规和风险管控的方法,已经从过去单纯的靠猜测转化为24小时不间断的监测。

运营隐私

像GDPR这样的法规不断地在鼓励公司去运营隐私,从研发到生产都要能够保证隐私不被泄漏。这就要求数据风险是能够被监测和衡量的。调查能够让一个企业感觉他们所作所为是符合数据隐私法规的,但是那只是一种假的安全感。去真正的运营隐私,需要有数据意识,并在研发和生产过程中持续衡量隐私。BigID就是致力于运用数据知识24小时不间断保证隐私合规和安全。

页面:123456789...44
随时欢迎您 联系我们