:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 机器学习如何影响企业数据战略(翻译)

Enterprise

锐眼洞察 | 机器学习如何影响企业数据战略(翻译)

作者:Paramita Ghosh

原文:How Can Machine Learning Affect Your Organizational Data Strategy?

译者:TalkingData副总裁 高铎(Ted)

本译文禁止商用,转载请注明来源与译者!

摘要:

  • 随着数据在业务中的重要性日益凸显,组织的整体数据战略越发重要,这个战略既要考虑机器学习和算法,更要考虑数据质量、数据治理、数据安全和数据资产保护。
  • 机器学习带来的自动化能力,应该逐渐融合到数据清洗、数据标准化等数据治理的全过程里面。
  • 在机器学习算法自学习完善机制建立后,数据质量是机器学习成败的关键。

目前企业面临的一个最大挑战,就是数据安全和数据隐私问题。在数据管理领域,由于大数据、机器学习和IoT等新型数据技术的出现,引发了对数据治理的研究兴趣。由于多种渠道的数据流入组织,数据质量和数据治理的问题日益凸显。目前的企业数据,由于采用先进的数据技术,已经被收集、组织和存储在不同层次的分析平台中,使得整体数据处理和数据管理策略比以往任何时候都显得更加复杂。简单地说,如果没有合适的数据战略,企业数据就不能被认为是值得信赖的。

2017年的文章“三大力量驱动企业数据战略(Three Forces Driving Enterprise Data Strategy)”,描述了来自传感器网络的事物数据和来自移动与社交平台的非结构化数据,如何一致的数据使用实践。换言之,这就是数据治理。

数据治理是组织数据整体战略的核心部分,由物理层、加工处理层和应用层组成。在暂不考虑太多技术细节的情况下,可以一言以蔽之,良好的数据治理目标就是将所有的数据孤岛打造成一个互通互联的共同平台,在整个企业里规范化数据的使用。

机器学习如何影响数据战略?

SAS研究所的这个解释,有助于我们澄清不同类型机器学习的差异。由于机器学习的基本原则要求训练数据有非常高的质量,所以智能算法可以从这些可用的数据模型中学习并改进自身。

在监督学习和半监督学习中,学习算法高度依赖于输入和输出数据的准确性。因此,干净、一致和准确的数据是必须的。这就是组织的数据战略所在。当组织的数据质量、数据安全、数据治理、数据管理和数据共享策略是透明的和确定的,只有机器学习算法可以成功地帮助实现预期的业务成果。如果你读过一篇名为“机器学习麦肯锡新报告的商业理念(Machine Learning Business Ideas from the New McKinsey Report )”,的博客,你将会发现机器学习拥有如何取代大多数人工工作的潜力。

DATAVERSITY里的文章“2017年的几大数据战略趋势”,包含了行业领先的一些企业,对当前企业数据战略现状的看法和建议。

机器学习给组织的数据管理带来了什么?

本文就整体数据战略认为,对初学者,以下内容可以作为典型的让组织头大的问题进行研究。

机器学习需要为其学习算法准备海量的数据,这要求组织实施一些并行的技术方案,如大数据、Hadoop或R语言。这也导致对组织而言,数据管理策略会比较复杂。

支持机器学习的方案,通常涉及多层次数据的处理,这要求组织的数据战略团队,必须特别关注数据质量、数据治理和数据安全问题。

机器学习解决方案,旨在基于多渠道数据源或多传感器来源的数据流提供实时处理方案。这会融入到组织里原有的数据清洗、数据标准化和数据治理工作实践里面。

数据管理意味着对所有数据团队的成员有清晰的问责制和响应能力要求,这意味着在组织的数据战略架构里面,需要有一层专管监测。

《计算机世界(The Computer World )》里的文章“机器学习是企业数据的新面孔(Machine Learning Is the New Face of Enterprise Data)”,介绍了一种称之为Siri的机器学习驱动的AI系统,来处理数据的复杂性,去模拟一个人类数据分析师。同一篇文章的另一个例子,来自亚马逊云的Larry,被设计得像人类分析师一样去实时思考和决策。如果采用机器学习的AI数据分析平台有自己的进化道路,那么很快,人类数据科学家将很快被智能、有自我思考能力的系统取代。你也可以阅读这个视频播客“ How Machine Learning and AI Are Impacting the Data Industry from DATAVERSITY ”,来了解一些工业界领袖的观点。

机器学习如何影响组织的数据质量?

“机器学习影响数据质量匹配(Machine Learning Impacts Data Quality Matching )”这篇博客认为,自动化可以大大提高机器学习系统中的数据匹配过程。文中提到了Spark,这是一个有可能完全实现数据自动化匹配以提升数据质量的技术。由于数据质量和数据治理是海量业务数据的严重问题,类似Spark这样的技术,可以大大有助于数据清洗。一方面,大数据的确能助长AI和机器学习的发展,但是另一方面,在组织的数据战略实施中,数据质量和数据治理越来越受到行业领导者和实施者的关注。确实,我们坚信,最终企业将会在机器学习驱动的见解中胜出,但是在这些发生之前,实施核心数据战略来保护数据资产的未来价值必须做到位。

大数据如何影响组织的数据战略?

《计算机周刊(Computer Weekly)》刊登的“麦肯锡重新审视大数据中的艰苦工作(McKinsey Finds Hard Work to Do in Big Data Revisited)”认为,大多数企业只能从业务数据中获取30%的价值。报告也认为,虽然大数据帮助企业获取竞争情报信息,但是在应用其能力改善结果上乏力。这个报告是想表明,企业不仅需要自动化的分析解决方案,还需要自动化或半自动化的决策平台。

这意味着机器在决策层面比人更好吗?

Gartner讨论了如何基于机器学习来创建数据战略,一般认为机器学习助力的AI可以提供自动化的结果。同时也指出,即使是全自动化的分析平台,运营者也必须有坚实的数据战略,来支持数据质量、数据治理和数据安全的目标。由于机器学习拥有“预测和规定”未来产出的巨大力量,组织必须更多地关注数据战略,以获取最大化收益。

数据质量,而不是算法,是机器学习成功的关键

虽然大多数组织都很乐于在机器学习驱动的数据分析中寻找商业机会,但他们前进的最大阻力,其实是“数据“而不是算法。

这意味着,投入到完善和健全数据战略的企业,将会笑到最后。自动化将为大大小小的企业提供先进的数据分析,但市场的核心差异,将会是谁能提供“干净的治理良好的数据”。随着越来越多的数据去帮助改善机器学习算法,数据质量会成为机器学习系统成败的关键。

机器学习能否重新定义组织的数据战略?

在2016年福布斯博客的文章“机器学习正在重新定义企业(Machine Learning Is Redefining the Enterprise) ”中,我们发现,机器学习分析系统的核心目标,是为业务决策发现隐藏的商业机会。这篇文章表明,机器学习以其自我学习改进能力的无限潜能,在预测分析和竞品商业分析方面,是企业独一无二的选择。如果不是机器学习、IoT、云服务和其它相关技术的综合作用,那些通过存在于社交平台、电子邮件、客服日志、移动电商和传感器数据流中的非结构数据流发现的预测模式,将依然隐藏和沉睡着。

Leave a comment

随时欢迎您 联系我们