:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 数据准备迈向Serverless(翻译)

Data

锐眼洞察 | 数据准备迈向Serverless(翻译)

作者:George Leopold

原文:Data Prep Goes Serverless

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明作者与来源!

译者评论: 云服务正在吞噬越来越多的IT的预算,尤其是在美欧等国家。而在国内,各种云服务也取得了巨大的进展。而对于大数据分析来说,从自建数据中心到利用公有云服务的弹性来进行数据处理,也越来越变为一个趋势。对于很多公司来说,随着人员的增加,越来越多的数据科学家和数据分析师需要计算资源来进行数据的处理和建模。面向这些需求,自己购买大量的计算和存储资源显然是巨大的成本开销,而且还很难解决需求与供给间的矛盾。因此,将数据分析和建模工作迁移到云端成为一个不错的选择。而公有云提供商也意识到了这个机会,于是在公有云上提供serverless的数据准备工具就成了一个趋势。这篇文章介绍的就是相关的内容。

云供应商管理计算和存储资源的平台的兴起,为诸如serverless数据准备工具等新的服务打开了大门。自助式服务的准备工具的列表正在增长,供应商提供不同的方法来将原始数据转变为可以便于进行分析的数据。“这些工具旨在减少准备数据的时间和复杂度,从而提高分析的的工作效率”。Gartner最近在对自助服务的数据准备工具的评估中指出。这些供应商估计数据科学家花费超过80%的时间去准备他们用于分析的数据。 基于云的serveless数据准备工具正在取得重大的进展,因为数据分析师正在寻找新的ETL工具去处理他们自己的数据集,从而能够便于进行分析,他们希望这些ETL工具能够替换那些传统的用于数据仓库ETL的标准的工具。 在最近的Gartner对自助数据准备供应商的调查中获得最高分的工具包括Lavastorm和Trifacta。Google最近宣布与Trifacta合作开发称为Google Cloud Dataprep的托管Data Wrangling的测试版本。 这两家合作伙伴说,这个服务旨在利用Google云平台加速面向分析的数据准备工作。这个数据准备工具使用了Google的serverless数据准备引擎——Google Cloud Dataflow,可以根据需要来管理计算资源。 Google通过增加对BigQuery和云存储的支持扩展了Trifacta数据准备服务。 在一个使用案例中,来自物联网和其他设备的原始事件数据被放入BigQuery中,通过添加数据描述符,然后与其他数据源相结合,可以使用Looker等专门支持Google数据库的分析工具非常容易的进行查询。 在一篇博客文章中,Qubit分析产品经理Mark Rittman表示,他使用这个配置来设置BigQuery表以接收运行在Google Compute Engine虚拟机上的服务器发送的流式注入的数据。 利用Fitbit健康追踪器的数据,他利用“类似电子表格的界面”的Google工具来处理数据。 Rittman指出,目前还缺少一些对Google Cloud API的支持,例如对谷歌自然语言处理API。 他预计,Google会升级和增加更多扩展到Trificata代码中从而能够支持更多serverless分析的特性。 Serverless数据准备顺应了大数据分析从私有化Hadoop部署到公有云转变的趋势。Gartner估计全球公有云服务将会增长18%达到2470亿美金,到2020年,云服务将会占领分析市场采购的大部分预算。  

Leave a comment

随时欢迎您 联系我们