:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 利用你自己的数据资产库进行数字化转型(翻译)

Data, Tech

锐眼洞察 | 利用你自己的数据资产库进行数字化转型(翻译)

作者:Gary Orenstein 

原文:Using Your Data Corpus to Further Digital Transformation

译者:TalkingData研发副总裁 闫志涛

本译文禁止商用,转载请注明来源与译者!

译者注:
这篇文章整体解读了数据资产库对于业务的重要性,尤其是支持实时操作的数据资产库。MemSQL本身是基于内存的数据库,因此其性能非常适合做实时的数据科学和建模。

简介

我们每天都会看到新产生的数据流,从新的移动应用到新连接的设施和汽车以及新的从全世界各个角落获取信息的业务应用。我们的世界已经充满了数据。

世界最具价值公司的估值飞涨和驱动他们业务增长的数据,是这一显著趋势的最好证明。我们见识了Apple与AppStore、Google与其搜索的历史、Facebook与其社交图谱以及Amazon和其每个客户的丰富购买历史。这几家公司都找到了产生和变现他们数据资产的有效的方法。

 

在更广泛的行业领域,如何获取数据、决定哪些数据有用以及哪些数据是杂质并且使之具备可操作性,仍旧是我们这个时代典型的技术和业务挑战。

在不同的行业领域有很多公司已经具备数据收集和分析模型,但现在是时候去评估这些手段能够如何有效的影响业务。

开发一个数据资产库

一个企业的数据资产库可能来自于不同的来源:

  • 现存的内部数据资产: 可能是企业内部已经存储的数据,这些数据可能开放给全公司访问,可能仅限一些个人或者团队访问。今天很多公司寻求将历史数据放入到数据湖中,尤其是将历史数据放入到低成本的存储中,使得这些数据可以被公司内部更多的人访问。
  • 现存的外部数据资产:并不是每个数据资产库都仅有内部数据构成。比如Google最早是通过扫描web网站来建设自己的数据资产库。在金融领域的另外一个选择是购买相关的历史数据集。
  • 新的数据流:未实现和未开发的数据流比较容易获取。可以通过收集新的数据或者加速数据收集来得到。例如,一个大零售商把现存的web统计从隔夜批量处理改为实时流式处理,这使得商品经理可以即刻看到相关信息并且做出决策而不需要等一个晚上。

评估数据资产库的价值

保留数据并不是免费的,并且具有固定和边际成本。然而,保留数据的成本通常远远小于数据带来的业务价值。例如,在Amazon S3上存储用于日常访问的前50T数据每个月花费1150美元,对于不常访问的放在Glacier存储上的花费仅仅200美元。当然,上传和下载也有成本,并且会放大存储花销,但是一般认为存储是相对便宜的。

更大的问题是对数据的利用。在公司内进行一个数据用户与组成的快速调研可以帮助我们回答这个问题。 大部分大公司有几十个甚至几百个商业智能分析师。 他们能从更多数据、新的数据流以及更新鲜的数据中获益吗?答案通常都是肯定的。

从数据资产库产生价值

数据资产库的价值是通过新的洞察和应用来产生的。一个简单的例子是Google利用搜索给出的建议。当Google吸引了大量的web搜索用户时,便可以对最频繁的请求构建一个数据库,当你在Google进行搜索时,它可以自动的利用这些数据进行补全。

clipboard-4.png

图1:Google的“自动补全”功能

金融领域案例

每个大型的金融机构都需要追踪财产从而确保其操作遵循公司或者政府的合规要求。尤其关键的是,如果银行发现其在合规范围内,就可以做更具野心的投资,从而获取更高收益。如果它已经接近或者触碰合规底线时,银行则必须进行相对保守的投资,而获得较低的收益。

如果没有一个数据资产库能够产生这些报告,银行无疑是在闭着眼睛飞行。通过将不同的系统中的数据放到一个大的实时数据仓库,银行得到了能够实时观察所有操作的一组透镜,确保信息是当日最新的而不是隔夜的。

利用实时反馈来达到数字化转型

最成功的公司采用数据资产库,并且结合数据科学和机器学习来驱动对数据资产库的洞察,如图2:

clipboard-3.png

图2:将应用与数据科学结合用于实时机器学习。来源:MemSQL

 

将应用和数据科学结合在一起进行实时机器学习

最初从数据资产库获益的是应用——技术领域的“执行者”。这些应用会产生一定量数据,并且在数据和应用程序之间有固定的交互。

随着应用和设备产生更加大量的数据,我们让“操作者”将数据科学应用在从企业软件到移动应用的一切地方以提高体验。当操作者和执行者结合在一起时,可以利用实时机器学习去驱动新的知识回流到业务。但也只有在反馈闭环被开发出来用于丰富体验时才能起效。

clipboard-2.png

图3:为数据资产库构建一个反馈闭环来驱动数字化转型。来源:MemSQL

用数据资产库做更多的事情

毫无疑问数据是商业的新燃料。企业现在需要通过可以提供数据变现能力的解决方案来应对数据的挑战。考虑到这一点,企业架构师应该考察:

可以存储大量的历史数据和实时数据的数据库和数据仓库

可以提供实时数据注入以及数据查询的数据存储

可以结合实时机器学习评分和嵌入机器学习功能到数据存储的解决方案

具备捕捉事件的事务处理能力和实时洞察的分析能力的数据存储。这样可以用更少的系统来提供完整的解决方案。

我们会看到在未来一段时间数据资产库会备受关注。正如一位杰出数据科学家同时也是一家AI创业公司CEO指出的:“我们将需要一个更大的资产库。”

 

clipboard.png

Leave a comment

随时欢迎您 联系我们