:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 数据科学家、数据工程师、数据统计师和软件工程师之间有何不同?(翻译)

Data

锐眼洞察 | 数据科学家、数据工程师、数据统计师和软件工程师之间有何不同?(翻译)

作者:Ronald van Loon

原文:The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers

译者:TalkingData副总裁 Teddy

本译文禁止商用,转载请注明作者与来源!

 1.png

找出数据科学家、数据工程师、软件工程师和数据统计师之间的差异可能会令人困惑和复杂。尽管所有他们都以某种方式与数据相关联,但是他们的工作和管理之间存在根本的区别。

数据的增长及其在整个行业的应用是隐蔽的。在过去的十年中,特别是最近几年,我们看到了负责制作和管理数据的角色的一个重要区别。

数据科学无疑是一个真正的增长领域。来自全球的组织甚至国家的数据收集工作都经历了显著的增长。由于收集和管理数据带来许多复杂的问题,现在这个领域的工作和界定范围十分广泛。我们现在指的数据科学家,其实由数据工程师、数据统计师和软件工程师等更具体任务组成。但除了名称上的差异之外,有多少人可以理解他们所从事的工作的多样性呢?

正如我所猜测的,没有多少人能了解这些数据专家所做的工作。许多人最终得出结论,他们都做同样的工作,并为此分类。没有什么比这个传说更加错误的了,为此,我今天要成为了一个传说破解者,解读数据产业中这些工作的角色差异所造成的冲突。虽然所有这些都有助于推动向真正的数据创建方向的发展,但是它们如何以及为什么会从这个角度出发,存在着巨大的差异。

在这里,我从管理和超越数据的大局角度概述这四类角色的主要属性。他们说无知是幸福的,但是知道真实的情况总是比回避真相要好。

数据统计师

数据统计师站在整个流程的前端,运用统计理论解决众多行业的实际问题。他们拥有手段和独立性来选择适合寻找和收集数据的可行方案。

数据统计师的职责是通过设计调查、问卷、实验等有意义的方式来收集数据。

他们从数据中分析和解释分析结果,并将他们分析发现的结论报告给上级。数据统计师需要具有分析数据、解读数据和以简单易懂的方式叙述复杂概念的能力。

数据统计师理解研究产生的数字,并将这些数字应用到现实生活中。

软件工程师

软件工程师是数据分析流程的重要前端,负责构建系统和应用程序。软件工程师将负责开发和测试/审查系统和应用程序工作的一部分。他们负责建造产出数据最终产物的产品。软件工程可能是所有这四个角色中最历史最久的一个,在数据繁荣开始之前,软件工程是社会方式中必不可少的一部分。

软件工程师负责开发用于收集和处理数据的前、后端系统。这些网络/移动应用程序通过完美的软件设计推动操作系统的发展。然后通过软件工程师打造的应用程序将生成的数据传递给数据工程师和数据科学家。

数据工程师

数据工程师是致力于开发、构建、测试和维护体系结构(如大规模处理系统或数据库)的人员。数据工程师与数据科学家经常被混为一谈,他们之间的区别是数据科学家是清理、组织和查看大数据的人。

在上面的比较中,您可能会发现对动词“清理”的使用有些异乎寻常和粗心,但事实上,它的目的是更好地反映数据工程师和数据科学家之间的差异。总的来说,可以体现出这两类专家所做的努力都是为了获得简单易用的格式数据,但两者之间的技术和责任是不同的。

数据工程师负责处理来自众多机器、人员或仪器错误的原始数据。这些数据可能包含可疑记录,甚至可能无法验证。这些数据不仅是未格式化的,而且还包含用于特定系统的代码。

这就是数据工程师们发挥用作的地方了。他们不仅提出提高数据效率、质量和可靠性的方法和技术,还要实现这些方法。为了搞定这个复杂的事情,他们将不得不使用许多工具并掌握各种语言。数据工程师实际上要确保他们的工作架构对数据科学家来说是可行的。数据工程师一旦完成了初始流程,就必须将数据交付给数据科学家团队。

用简单术语来说,数据工程师通过服务器确保数据流以不间断的方式传输。他们主要负责数据所需的架构。

数据科学家

我们现在知道数据科学家将获得数据工程师加工过的数据。数据已经被清理和处理,数据科学家可以使用这些数据来输入分析程序,以准备数据用于预测建模。为了建立这些模型,数据科学家需要做广泛的研究,积累来自外部和内部的大量数据来满足所有的业务需求。

一旦数据科学家完成了初始阶段的分析,就必须确保他们所做的工作是自动化的,所有的洞察都会定期交付给所有关键业务利益相关者。事实上,成为数据科学家或数据工程师所需要的技能显然有一些类似。但是在行业内,这两者间的区别正在逐渐变得更加明显。数据科学家需要了解与统计、机器学习和数学相关的复杂细节,以帮助构建完美无瑕的预测模型。此外,数据科学家还需要懂一些分布式计算。通过分布式计算,数据科学家将能够访问由工程团队处理的数据。数据科学家还负责向所有业务利益相关者提交报告,因此需要关注可视化。

数据科学家运用其分析能力,从输入机器的数据中提取出有意义的发现。他们将最终结果报告提供给所有关键利益相关者。

数据领域正在不断发展,它包含了比我们以前所能想象的更多的可能性。

Leave a comment

随时欢迎您 联系我们