锐眼洞察 | 在企业中接受开放数据科学的5个技巧(翻译)

作者:Alice LaPlante

原文:5 tips for embracing open data science in the enterprise

译者:TalkingData 合伙人&执行副总裁 林逸飞

本译文禁止商用,转载请注明作者与来源!

企业不断寻求竞争优势。最近,重点是利用数据抓住机遇,发现可能的弱点,并胜过竞争对手。大数据尤其提供了多种方式来使用数据来推动战略、运营和执行实践。数据科学越来越成为实现这一目标的途径。

首先,定义:数据科学是一个多学科领域,将高级分析(包括机器学习和人工智能)的最新创新与高性能计算和可视化相结合,从数据中提取知识或洞察力。

数据科学的工具起源于科学界,研究人员利用这些工具来测试和验证包含“不确定的未知数”的假设。随着计算成本的下降和软件变得更加复杂,这些工具在过去的10年中逐渐进入了商业、政府和其他组织。

但是专有工具和技术已经证明不足以支持数据科学领域现有的速度和创新。进入开源社区。

开源社区希望摆脱专有工具的束缚,采用更加开放和协作的工作风格,这种风格能够反映他们的工作方式——团队遍布全球。这些社区不只是创造新的工具,他们呼吁企业使用正确的工具解决手头的问题。

开放数据科学是革命性的。它改变了组织处理分析的方式。借助开放数据科学,你可以提高数据团队的生产率,通过转向自助式数据模型提高效率,克服组织和技术方面的障碍来最大化数据价值。

采取开放数据科学,有五件事你可以去做:

1、全心全意采用开源。传统的商业数据科学工具发展缓慢,虽然稳定和可预测,但其中许多都是围绕着20世纪80年代风格的客户——服务器模型架构,不能通过网络访问接口扩展到面向互联网的部署。另一方面,开放的数据科学生态系统建立在标准、开放性、网络可访问性和面向网络规模的分布式计算的概念上。此外,开放数据科学工具是由分析师、工程师、统计人员和计算机科学家组成的全球性团体所研发,他们在该领域拥有丰富的实践经验。

这一全球团体包括数以百万计的用户和开发人员,他们迅速迭代当今最令人兴奋的算法、可视化策略和数据处理例程的设计和实施。这些部分可以高效且经济地扩展和部署到各种不同的系统中。

通过积极采纳并为这个团体做出贡献,成功部署的机会将成倍增长。

2、建立一支拥有多种技能的数据科学团队。成功的项目从聚集合适的人并通过可操作的方式把他们组织起来开始。开放的数据科学也一样,但所需技能的多样性可能会让你感到惊讶。诚然,数据科学固有地依赖于数学和计算机科学。传统上认为,一个人要想在数据科学领域工作,必须要有强大的统计学背景。然而,这些像独角兽一样稀有且神奇的“数据科学家”很难找到。此外,开放数据科学是现实有用的学科,需要一个包括业务分析师、数据科学家、开发人员、数据工程师和开发运维工程师的团队。

它还需要新的组织结构——卓越中心、实验室团队或新兴技术团队,都是促使团队成员推动变化的一种方式。这些团体通常负责积极寻找新的开放数据科学技术,并确定组织的适合性和价值。这有助于开放数据科学的采用,弥合传统IT和业务线之间的差距。另外,可能会有从统计学家到数据科学家、从数据库管理员到数据工程师的角色转变,新的角色(例如计算科学家)也将会出现。具有灵活性且拥抱多样性是十分值得的。

3、确保高管支持。这可能听起来像老一套的“IT项目需要高管支持”的说辞。但请记住,我们正在谈论的是在企业IT图景中为新兴世界腾出地方,在这个新兴世界中,开放数据科学与新的和现有的数据相连接,影响从普通的日常事务到重要的业务战略决策。另外,开放数据科学也会将新的不同类型的风险引入到组织中,这些风险可以通过适当的高管赞助来减轻。

4、准备动态支出。使用传统的分析软件,当你购买平台或系统时,你所有的支出都是事先决定好的。你全力以赴高效执行这一决策了一段时间。然后就你有所收获。这种静态投资与开放数据科学所做出的动态投资完全不同。

在开放的数据科学世界中,你将有更快运行和迅速完成事情的优势,因为开源软件可供用户免费下载并立即开始使用。无需等待企业采购周期。也不必等待商业软件的漫长升级周期,因为世界上最聪明的人才在不断为开源软件创新作出贡献,并且他们的努力立即可用。这绝对是一项优势。减少前期大规模规划和预算十分有必要。但是,随着需求和技术的发展,你必须不断做出新的决策和投资。这就要求在预算和采购方面进行一些组织流程的改变。

5、建立健全且合适的治理框架。开放的数据科学并不存在于真空中。你仍然需要控制组织中数据科学资产的创造、分享和部署。你为数据科学资产建立的用户权限必须与各种各样的企业认证系统(如LDAP、Active Directory和Kerberos)结合,以跟踪所有开放的数据科学活动。这包括访问特定版本的开源代码库和软件包的权限,以及由你的团队创建的特定版本的数据科学资产。另外,你需要建立完整的数据科学资产来源(例如数据、模型和应用程序),以实现监管机构或合规审查委员所要求的透明度。

当今的业务速度要求获得授权的团队对数据科学反应积极的合作,并且有对业务的深入了解,能够迅速传递价值。他们还需要正确的开放数据科学工具,而且愈加延展为一系列的编程语言、分析技术、分析库、可视化和计算基础设施。

开放的数据科学是真正的革命性的,并有可能改变我们所知的商业决策。

发表评论

电子邮件地址不会被公开。 必填项已用*标注