锐眼洞察 | 数据管理的未来:一场工业革命(翻译)

作者:Amber Lee Dennis

原文:The Future of Data Management: An Evolution of the Industry

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明作者与来源!

DATAVERSITY最近采访了MapR创始人John Schroeder,以了解他对数据管理领域未来发展方向的想法。 Schroeder在企业软件领域拥有超过20年的经验,专注于数据库管理和商业智能。 这样的背景使Schroeder洞察到数据管理的世界如何随着时间的推移而变化,以及现在发生的主要趋势。

人工智能的重振

人工智能(AI)现在已经回到了主流讨论中,Schroeder说,它是涵盖了机器智能、机器学习、神经网络和认知计算的一个热门词汇。

人工智能将被快速采用,使用在大型数据集上部署的简单算法来解决重复的自动化任务。他说,与传统平台相比, “谷歌已经提到简单的算法,经常执行大数据集比使用更小集的其他方法产生更好的结果。”

他补充说:“使用现代和传统的处理模式,可以处理三个V的水平可伸缩平台:速度,种类和数量可以提供10-20倍的成本效率。”我们将看到应用人工智能 到高容量的重复性任务“。

Schroeder展示了一种简单的AI使用方法,它将特定的客户购物属性分组到聚簇。 他说:“聚类是非常基本的人工智能算法之一,因为一旦你可以聚集项,那么你可以预测一些行为。 现在可以调整大量数据的算法,以便聚簇变得更紧密、更快速,这使得数据保持新鲜和相关。 当单个聚簇中的点之间的标准偏差尽可能紧时,可以在整个聚簇中进行假设,并向该聚簇内的其他客户提供报价和服务,并具有合理的成功预期。

当将聚簇建立到像亚马逊或沃尔玛这样的在线零售商的运营系统时,影响行为的潜力是显著的。 他说,在一个静态定价的在线目录中,购物车的放弃率是“走到尽头”。 但是通过使用人工智能,商店可以推荐其他产品,同时实时搜索具有竞争力的价格,动态调整价格,提供店内优惠券和价格保证,让客户感觉到自己得到了最好的产品价格可用。

“这是世界的速度。 他说:“客户在切换到另一家公司之前,要实时向每一位用户实时提供个人信息。”

大数据治理vs竞争优势

“治理与数据价值”的拔河将从前沿向中心移动。 企业拥有大量有关其客户和合作伙伴的信息,现在正面临着法规遵从所需的数据治理与免费使用数据以提供业务价值,同时避免破坏性数据泄漏或违规行为之间的拉锯战。

Schroeder表示,主数据管理(MDM)是一个大问题,一段时间内,这是一个很大的问题。 对于任何组织来说,“跟上治理,血统,安全和访问”是非常非常非常困难的,尤其是在扩大组织中使用的数据量的时候。 他说,更聪明的组织正在问:“我们的数据的哪一部分必须被管理和遵从,还有其他哪些数据源不需要这些? 所以它可以让他们摆脱世界上所有的MDM的老鼠洞。”

“如果我说:’你今天晚上为什么不回家去,把你家里每件物品的Excel表格都打上电子表格,然后记录下任何人接触,使用或吃的东西’,你什么都做不了,对不对? 所以你不得不说,有人吃了香蕉,我得去更新数据库。“

他说,领先的组织将在受管制和非受管制用例之间应用数据管理。 受管制的用例需要数据治理,数据质量和数据沿袭,因此,监管机构可以通过对原始来源的所有转换来报告和跟踪数据。 这是强制性的和必要的,但是对非实时数据以及结构化和非结构化数据混合产生更有效的结果的非监管用例进行限制。

公司专注于数据湖泊,而不是沼泽

组织正在从“构建它,其他的都会跟来”的数据湖方法转向实现业务驱动的数据方法。 Schroeder说,使用案例导向驱动了分析和操作的结合。

一些公司梦想有一个数据湖,所有的事情都是在“一个集中的,安全的,全面管理的地方收集的,任何部门都可以随时随地访问”,Schroeder说。 这听起来很有吸引力,但是往往会导致数据沼泽,无法满足实时和操作用例要求,最终看起来更像是重建的数据仓库。

事实上,今天的世界发展速度更快。

Schroeder表示,为了与当今这个快速发展的世界展开竞争,企业需要分析和运营能力来解决客户的需求,并在个人层面实时处理设备与设备的接口。

“电子商务网站必须实时提供个性化的建议和价格检查。 医疗机构必须处理有效的索赔,并通过将分析与操作系统相结合来阻止欺诈索赔。 媒体公司正在通过机顶盒对内容进行个性化处理。 汽车制造商和乘坐分享公司正在与汽车和司机进行大规模的互动。“
有一个预定义的业务用例是不够的。 这个企业必须“足够有远见,以至于能够考虑接下来的几个用例,所以他们不想仅仅为第一个用例服务就把自己逼到一个角落”。

他预测,提前定义用例的企业将会是最成功的,因为“客户在表达需求方面做得更好,他们知道价值会是什么”,这与广义的“构建它,他们会来”的想法相反 。

提供这些用例需要一个敏捷平台,可以提供分析和运营处理,以增加从后台分析到前台运营的其他用例的价值。 组织将超越“提问”方法,构建推动初始和长期的商业价值。

数据敏捷性区分赢家和输家

Schroeder表示,处理和分析模型的发展将提供与DevOps类似的灵活性,因为组织认识到数据敏捷性(理解数据和采取业务行动的能力)是竞争优势的来源。

“公司可能会犯的错误是实施一个单一的方法。 他们会说,’我们真正需要的是能够做Spark处理。 所以我们要用一种只能做Spark的技术来做到这一点,然后他们在三个月的时间里就会说:’好了,现在我们必须把这个显示给很多用户,所以我们 需要做全球信息传递[但是]我们部署的平台不会这样做。 我们现在干什么?

与其引入另一种消息传递技术,并试图找到一种在Spark和全球消息传递之间传递数据的方法,然后设置访问控制和安全角色等等,企业可以使用技术使其更加敏捷, 而不是陷入一个特定的平台,他说。

“敏捷处理模型的出现将使相同的数据实例支持多种用途:批量分析,交互式分析,全局消息传递,数据库和基于文件的模型。 当单个数据实例可以支持更广泛的工具集时,分析模型更加敏捷。 最终的结果是支持最广泛的处理和分析模型的敏捷开发和应用程序平台。”

区块链转换选择金融服务应用程序

Schroeder表示:“金融服务中将出现选择性的转型用例,这些用例对数据存储和交易的处理方式有着广泛的影响。 他说:“区块链为消费者提供了明显的效率。 因为客户不必等待SWIFT交易,也不必担心中央数据中心泄露的影响。

Don Tapscott与Blockchain Revolution的合伙人Alex Tapscott在一篇名为“区块链将改变你的生活”的文章中写道:

“大银行和一些政府正在实施区块链作为分布式账本来革新信息存储和交易的发生方式。 他们的目标是值得赞美的 – 速度快,成本低,安全性好,错误少,消除了中心点和失败点。”

Schroeder继续说,作为一个信任协议,区块链提供了“一个全球性的分布式账簿,改变了数据存储和交易的处理方式。”由于它运行在遍布全球的计算机上,Tapscott补充道。

“没有中央数据库可以破解。 区块链是公开的:任何人都可以随时查看,因为它驻留在网络上,而不是在一个负责审核交易和保存记录的机构内。

事务存储在块中,每块指向前面的块,块都打上了时间戳,数据存储在一个不能改变的格式中,Schroeder说。 “对于企业来说,区块链提供了节约成本和增强竞争优势的机会。”

机器学习最大化微服务影响

数据管理将看到机器学习和微服务整合的增加,他说。 先前的微服务部署集中在轻量级服务上,那些已经包含了机器学习,通常仅限于应用于窄带数据流的“快速数据”集成,Schroeder说:“我们将看到一个发展转向利用大数据的有状态应用程序,并且使用机器学习方法,这种方法使用了大量的历史数据,以更好地了解新到达的流数据的上下文。”

发表评论

电子邮件地址不会被公开。 必填项已用*标注