:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 云端的数据科学-也就是所说的模型即服务(翻译)

Data, Tech

锐眼洞察 | 云端的数据科学-也就是所说的模型即服务(翻译)

作者:Vamsi Chemitiganti

原文:Data Science in the Cloud A.k.a. Models as a Service (MaaS)

译者:TalkingData研发副总裁 闫志涛

本译文禁止商用,转载请注明作者与来源!

译者点评:

数据从核心上来讲是要流动才能产生价值,但是数据又不能被交易,那如何让数据产生价值呢?这里就引出了一个新的模式Maas,也就是模型即服务。简单来讲,数据是各种实体以及其行为的数字化记录,利用这些数据,可以进行分析和预测,而分析和预测的过程,就是模型在起作用。做个类比,我们的人脑中实际上就是存在各种的模型,而我们的感官就是数据收集的部分,大脑中的模型通过对收集的数据进行处理,就指导了我们每天的各种决策。数据作为进行决策的原始材料,基本上很难通过交易来进行价值的变现,那如何变现数据的价值呢,答案就是——模型。我们不可能将大脑里存储的数据出售给别人,但是我们每个人售卖的都是我们大脑通过模型处理后产生的结果,而其价值则来自于我们大脑中模型的能力,而类似于爱因斯坦的牛人,他的大脑中的模型也超级牛,就能够改变人类对世界的认识。而我们芸芸众生,大脑中都是一些相对普通的模型,价值自然也就普通。对于大数据,模型即服务的模式无疑是让数据产生价值的一个可行路径。碰巧看到了这篇文章 http://www.vamsitalkstech.com/?p=5321 ,作者对模型即服务做了介绍,同时介绍了他对模型即服务的认识。这里翻译给大家,希望大家一起讨论。

 

硬件即服务,软件即服务,数据库即服务,基础设施即服务,平台即服务,网络即服务,后端即服务,存储即服务。随着每个IT交付的模式向云端转移,难道数据科学会落后于这个趋势吗? 在这个云化的环境中,什么能够帮助数据科学家实现他们的模型能够持续利用高质量和大量的生产级别的数据进行持续的训练?答案是模型即服务。

预测分析工作流程

预测分析的工作流程总是从头脑中的一个业务问题开始的。例如:”一个营销项目去检测基于客户历史上和实时的对产品的使用模式,预测哪些客户更有可能在接下来的六个月购买新的产品或者服务”。

ence_Process.png

面向这一类用例,数据科学过程的目标是能够通过分区和过滤将客户放置到不同的分类中,从而方便排序。在完成这些后,企业可以设置简单直接的可视化来展示效果。很多时候,企业集团通常很难解释他们到底想要看到什么,无论是输入数据还是输出格式。在这种情况下,一个原型可以使得需求的收集变得更加容易。当问题被定义后,数据科学家/建模的人就会去识别与业务挑战相关联的原始的数据源(包含了内部数据源和外部数据源)。他们花费大量的时间在数据收集的过程当中(从类似于Oracle/SQL Server、DB2、主机系统、Greenplum、Excel、外部数据集等等不同的来源)。清洗过程包含了处理缺失值、处理残缺的数据单元、格式化字段使得格式一致等等。

数据清洗阶段包括利用代码将不同的数据元素关联在一起,从而使得从不同的原始的数据源来的数据可以以正确的颗粒度构成一个完备的数据集放置到数据湖当中。如果在开发过程进行中获取了新的数据,数据科学团队不得不回头重复这个过程从而能够利用新的数据。建模过程是复杂的算法开始起作用的过程,特征工程是接收业务概念和原始数据特征并从它们当中产生预测特征的过程。数据科学家得到原始的或者特征工程化之后的特征,使用不同的算法并且测试从而找到最好的算法来创建模型。当模型被完善,并且经过精度以及性能测试之后,理想情况下是被部署为一个服务。

现存方式的挑战

业务扩展性:前面提到的预测性分析通常来自于一个业务线或者创新。如果你不让多个应用和业务创新去访问构建的模型,带来的收益将会大大的降低。

缺乏数据丰富性:一个团队创建的模型并不能够总是被跨组织的来自于不同业务应用的持续产生的数据所增强。除此之外,绝大多数行业应用程序并没有在业务应用中利用所有的可能的非结构化数据以及第三方数据。使模型曝露在一系列的数据中(无论内部还是外部)只能丰富产生的洞察。

跨应用的适用性:这个挑战涉及如何从不同的应用程序(利用不同的模型)中得到业务智能洞察,去增强那些并不是创造那些模型的业务领域。这可以实现实时的以客户为中心的洞察。例如,考虑一个客户销售应用和一个呼叫中心应用,跨应用的洞察可以用来理解客户打电话到呼叫中心是因为利用网站下产品的订单非常困难吗?

数据变现:创建新的商业业务模型的一个至关重要的能力,是围绕现存的以及新的数据源进行敏捷分析的能力。如果随之而来的是企业越来越多的业务数据资产建立,那么自然而然的数据会当作商品可以进行交易,创造收入。例如,领先的支付服务商现在向零售商提供分析服务以帮助他们理解哪些产品业绩更好以及如何改善客户的微观目标。因此数据是任何数字驱动的措施的关键一环,这导致了通过创建支持生态能力的平台来进行数据变现的一些努力。我们将这个讨论简化一下,数据变现的能力需要两个方面——首先将其集中,然后进行大规模的预测建模,这要求系统需要持续的学习并且优化他们的交互、以及优化按照客户的需求和选择的响应和服务。因此模型集中化将带来传统企业想象不到的巨大收益。

MaaS 模型即服务

模型即服务接受业务变量(通常是几百个或者几千个输入)并且提供将可以预测的业务决策作为模型输出。还有可视化的用于增强和支持业务决策的支撑系统。如图所示,一旦建立、测试和验证了不同的预测模型,它们就可以在现实世界被生产部署。MaaS本质上是一种部署这些高级模型的方式,作为软件应用的一部分,他们可以被作为软件服务来订阅。

aS_Lifecycle.png

MaaS方式带来的业务价值

a. 将模型开放给不同的业务线可以提高它们的实用性,并且通过接收反馈来提高它们的准确度。

b. MaaS将模型开放给任何希望从它们当中获益的应用,这迫使数据科学家与比通常更广泛的业务团队进行合作。

c. 在整个组织中提供仪表盘和商业智能比采用孤立的方法要简单的多。

d. MaaS作为一种方法从根本上鼓励敏捷的方法来管理数据资产,并使其合理化。 对于任何MaaS的成功,都需要能及时访问组织中潜在的数百个数据源。 MaaS鼓励将数据视为整个组织的可重用资产。

MaaS方式的技术优势

Leave a comment

随时欢迎您 联系我们