:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Monthly Archives / 二月 2018

  • Feb 23 / 2018
  • 0
Data

锐眼洞察 | 2018年将成为数据工程师年(翻译)

作者:Alex Woodie

原文:Why 2018 Will be The Year of The Data Engineer

译者:TalkingData架构师 曾晓春

本译文禁止商用,转载请注明来源!

多年来,精通统计、业务和编码技能的数据科学家的短缺一直备受关注。但是,越来越多的企业面临着另一种大数据团队关键人才的短缺,他们对于取得成功至关重要,那就是——数据工程师。

基于数据的系统能够支持项目的分析和事务操作,而数据工程师是设计、构建和维护这一系统的专家。尽管数据工程师不一定掌握数据科学家拥有的技能,比如构建复杂的机器学习模型,但是他们需要完成大量支持数据科学工作所需的其他工作,例如:

  • 构建数据管道以收集数据并将其移动到存储中;
  • 为ETL或ELT过程准备数据;
  • 将数据与脚本语言拼接在一起;
  • 与DBA合作构建数据存储;
  • 确保数据可以随时使用;
  • 使用框架和微服务来提供数据。

简而言之,数据工程师的工作就是向业务需求者提供干净、可靠的数据。与数据科学家的聪明才智相比,数据工程师更像是一位具有实践经验的管道工。如果数据科学家是提出利用新数据源获利的宏伟计划的人,那么数据工程师就会知道如何构建流水线来移动数据,清洗和转换数据,并实现服务以确保数据科学家拥有需要的所有干净、可靠的数据。

没有足够的工程师

大数据中间件开发商Dremio的CEO兼共同创始人Tomer Shiran说:“当一个公司试图将其数据科学项目投入生产时,数据工程师至关重要。因此,数据工程师的需求近来一直在增长。

“为了成功运行一个数据科学项目,数据科学家与数据工程师的数量通常有一个比例。”Shiran说,“但即使是最热门的硅谷公司也无法实现一比二的比例,没有足够的工程人才,他们很昂贵。”

shutterstock_engineer-300x169.jpg

数据工程职位空缺数量超过数据科学的职位空缺约四倍

Shiran说:“分布式数据存储(如Hadoop、Amazon S3和Azure BLOB)的复杂技术特性增加了对数据工程师的需求,因为总的来说,只有工程师才能从系统中获取价值。”

数据工程师的短缺正在推高需求。在Glassdoor上搜索发现,在全美国有107,730个数据工程职位。这些职位列表中的大部分都有超过10万美元、个别超过15万美元的起始工资。相比之下,对数据科学家的职位搜索结果是21,760个——其中很多也是高薪的。事实上,在就业委员会中,有98,218名数据工程师职位,而数据科学家只有24,695名——数据工程师与数据科学家职位的比例几乎为四比一。

Umbel工程高级总监凯文·萨福德(Kevin Safford)表示,工程是Umbel利用其数据平台为体育特许经营带来价值的重要组成部分。

“如果他们试图自己建立这个平台,那将是一场噩梦。”Safford告诉Datanami。“首先,他们不是工程公司、也不是软件公司。我们花了很长时间、很多聪明的人做了大量的努力来构建这个项目。”

Umbel使用各种开源和专有技术(Spark、Cassandra、ElasticSearch等)来建立数据库,跟踪消费者的体育相关指标,包括他们如何购买门票、他们的社交媒体行为、品牌兴趣、以及人口统计和心理状况。

Safford说:“我们有数以万计的标签可以与任何特定的个人相关联,并且整个系统内包含的人群为两亿人。这是一个巨大的数据量。仅仅是要管理这些数据集就非常困难,使它可用于信息检索并迅速实现就更加的难,甚至可以说这是非常不凡的。”

并行的大数据世界

Overstock.com集团产品经理Craig Kelly 表示,在数据科学领域有两个平行的世界 ——数据管理和统计 ,但它们往往不重叠。“观察我们的数据科学小组的成员,他们都是优秀的数据科学家。”Kelly说。“但他们中没有重量级的数据工程师。”

data-pipe_shutterstock_posteriori-2018a-300x171.jpg

数据工程师负责建立和维护提供新鲜和准确数据的管道

为了构建强大的一对一营销机器,Overstock.com必须克服这一数据工程弱项。他们部分采用了基于云的数据分析解决方案。“我们在数据工程方面没有足够的资源来支持我们要做的事情,所以我们考虑了Snowflake和Databricks弥补了这个不足——不是数据工程方面的专业知识,而是数据工程所需的硬件资源,所以数据科学家可以在不用太依赖其他团队的情况下完成工作。”

实时流分析软件供应商Striim的首席技术官兼创始人史蒂夫·威尔克斯(Steve Wilkes)表示,企业对收集到的数据越来越挑剔,因此他们在做数据整合的前期工作,而不是将数据集成到数据湖中。这正在改变他们如何部署他们的人员以及对人员的工作内容安排 。在某些情况下,数据科学家被要求承担更多的数据工程角色。

“我们更多看到的是数据科学家正在参与最初的数据收集,并开始在数据准备方面有更多的发言权(在它落地之前而不是在落地之后),包括在内存中进行数据准备,以正确的形式获取数据,进行特征提取。” Wilkes说。

工程的成功

Umbel的Safford表示,即使是最好的数据科学项目,数据工程专业知识的短缺也可能导致数据丢失。

他说:“你必须同时解决这两个问题才能取得成功,因为如果花费大量的时间和精力来管理你的数据,而你却无法利用它,那么这将成为巨大的痛点和巨大的成本。与此同时,如果没有非常小心准备、管理和维护一个对所需解决的问题有重要作用的数据集,那么分析团队将无的放矢。”

shutterstock_computer-engieneer_gyn9037-300x199.jpg

工程师正在成为大数据项目的重要团队成员

Safford已经看到许多数据项目因为数据工程执行不力而陷入困境。他说:“构建数据应用程序与构建大规模Web应用程序相比,需要完全不同的专业知识。就像不应该聘请一个建筑商来建造甲板,或者去找一个机械师来照顾你的生活。你不仅仅需要为节约自己的时间而付出成本,还要雇佣专家确保你避免做一些根本错误的事情,这些事情往往在发生之前你都不会注意到,一旦到发生的时就会让你陷入深深的困扰之中。

组织通常认为他们可以在项目工作中获得数据工程的经验。他们通常是错误的,Umbel说。

“必须要辛苦获得在建立数据管道、数据管理系统、数据分析和所有中间代码方面的实践经验,才能使数据可用和可访问,并确保数据是正确的,以确保你所做的分析是正确的,”他说,“如果没有这方面的专业知识,就会自以为随着工作进行就能搞懂这些东西。而且我看到很多人这样想。他们几乎都是错的,而且他们总在犯同样的错误。”

  • Feb 09 / 2018
  • 0
Data, Tech

锐眼洞察 | 2018 关于数据的一些思考

作者:TalkingData 陈雷

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

掉过的那些数据坑

虽然过去的咨询、架构、软件工程管理工作中一直在分析数据、应用数据,一直在填各种坑,但真正跳进数据这个坑是始于 2015 年加入 TalkingData,真正把数据作为自己工作与研究的主体。 2015 年大数据公司的数据应用刚刚起步,我们就已经利用自己积累的数据,率先在行业内建立起一套数据标签体系,这套数据标签体系成为数据服务工作的起点,我们利用这批数据标签建立了移动互联网行业的覆盖和活跃排行榜,为移动用户人群的移动行为画像,起到了很好的示范效应。 随着数据应用逐步深入到深水区域,我们开始深度尝试数据标签在行业中进行精确营销、精细化客户运营、金融用户的风控识别,这时发现原有的标准化数据标签的应用效果参差不齐。 有些标签在特定人群使用中有效果,但换一个人群的效果差异就可能很大。举个例子,我们的标准标签建模后在金融风险客戶甄別上的 KS 值在 0.14 到 0.19 之间,基本属于不可用的范畴。 仔细分析标准标签的原始数据和信息加工场景后,我们对原始数据进行进一步发掘,针对行业需求深入探索数据中的信息含义,定制了一系列的行业标签。 针对金融用户的风控需求,我们从用户的稳定性、金融行为、消费行为、位置趋势、性格偏好等多个金融视角重新制定了一套风控标签,这些标签建模对金融贷款风险用户甄别的 KS 值提升到 029-0.39 之间,基本满足了金融客户对行为数据的期望值。但在金融数据应用金字塔上,行为数据依然处在金字塔的底端,难以撼动金融客户的数据应用习惯。 复盘过去几年做的事,我们总结了数据工程方法论,针对数据应用的层级归纳了数据、信息、知识、洞察、智慧等五个层次。   data_information_knowledge_insight_wisdom-1

图片来自:David Somerville

过去,数据分析师在做数据应用时,起点常常是数据标签,数据标签属于信息层面。只有当信息不足的时候我们才把数据分析的开始层次回退到数据层面,直接在数据中提取更加丰富的信息内容。 这样的经验与教训过程进一步促发了更多思考:

  • 采集和使用的原始数据是否真实?

  • 数据的丰富程度能否满足应用需求?

  • 数据工程过程中如何保证信息的传递?

这些问题触发我们重新去认识数据与信息,重新去理解数据的本质。

数据的本质

以下是百度百科上查到的数据与信息的定义:

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据作具有含义的解释。 数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现心事,信息是数据有意义的表示。 数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

可以看出,这里数据及信息的定义还是比较生硬,比较模糊, 而在实际应用中数据与信息有很深的联系,常常被混合用在一起。 我重新把信息与数据的关系拉开看,用下面的图来表述这个关系。 WX20180130-105719   有种说法是世界上几乎任何事物都可以用信息的方式量化。这里的事物就是信息的主体,信息主体的信息被采集并量化(比特化的过程),数据就是这个信息量化后的载体。作为载体,数据本身不带有任何目标,也不是目标,数据的应用才是数据价值所在和最终目标。 数据的应用过程的起点就是信息的还原,信息的表现往往也是以数据形式存在。 在 TalkingData 的数据中信息的主体就是人,但 TalkingData 并不是对人的信息直接采集,而是通过现代人的随身必备的介质——手机,来采集人的信息。 信息的釆集是通过 SDK 获取的信息主体所做的移动互联网行为数据。当然,从信息主体的人的角度来看,TalkingData 的数据采集能力只是很有限的能力,采集的数据也仅仅是人这个信息主体上的数据片段。 信息主体能够被数据化的能力取决于数据的釆集技术和能力的发展。过去,在小数据时代,人的信息釆集能力仅限于关键性信息,而且很多的数据分布在无数不同的场景中,很难收集、归拢,也无法真正还原信息主体上的信息。 随着各种全新的信息釆集手段出现,信息采集越来越丰富,才能越来越接近信息主体的真相。也就是车老师在《数据的本质》一书中谈及的完美数据。

完美数据

完美数据的提出来源于车品觉老师的书《数据的本质》,完美数据是基于一个假设:信息主体上的所有信息都是可以获取的。随着数据技术的发展,信息主体上的信息采集和数字化能力正在不断提升,完美信息正在趋近。 WX20180130-143250  

《数据的本质》TalkingData 定制版

完美数据的依据是数据采集能力变化,生活在现代社会,正常的人完全无法避开周边无孔不入的数据采集。 上个网浏览个网站,网站会记录你的浏览历史;网店买个商品,网店会记录你的所有浏览记录、交易记录;用着手机,手机上的各款应用都在记录你的移动互联网行为信息;线下逛个商场,流量摄像头、Wi-Fi 服务、Wi-Fi 探针在统计着客流量的同时,也在记录着客流轨迹;走在城市的街道上,周边的无数安保摄像头也在不停的记录着人群的图像; 在家里, 每个智能家电在提供生活便利的同时, 也在不断累积你的行为历史。 可能大家已经很恐慌了,我们的数据都在不停地被各种收集手段收集,是不是以后就没有隐私了。罗胖的跨年演讲也在用比特化脑洞的概念来强化这份焦虑。其实这些数据离完美数据的方向还很远。 举个例子,图像记录生活从远古就已经存在,图像的比特化也开始于电子图片产生,但是图片中蕴含的信息却极其复杂,现在的 AI 的图像识别能力在深度信息获取上依然有很大的局限。具体可以参考朱松纯教授在视觉求索微信公众号中的文章《浅谈人工智能:现状、任务、构架与统一》中的计算机视觉:从深到暗一节。 实现完美数据的障碍在一段时间内依然很大,体现在几个方面:信息主题的数据采集能力还不完善;采集后的数据可能分散在多个数据 DOMAIN 中,数据的整合成本与难度较大;数据的信息还原能力不足,导致大量数据无法应用,空耗着数据存储的巨大成本。 数据圈一直有个暗数据的概念,暗数据特指那些已经被采集的数据但还没有被发掘和理解的数据。 据统计,大部分企业暗数据的占比高达 90%。再拿宇宙来类比,据估算,宇宙中的暗物质、暗能量更是高达 96%。按照这样估算,我们当前能够采集的数据占完美数据的比重小得可怜。

big-data-dark-data

图片来自:KDnuggets

数据分析师们是否要开始焦虑了? 信息的作用是应用场景,既然没有绝对的完美数据,我们可否寻找业务中的最佳数据应用场景?这些场景能够在一个相对小的环境内,实现准完美数据的应用。

数据场景

场景这个词这几年很是流行,原来用于文化圈的一个词被重构用来展示人与商业的连接。伴随着新场景的创造,新体验、新流行、新洞察、新生活方式等新物种层出不穷。 数据场景展示的是数据与业务场景的连接,数据很早就已经被应用于各类业务场景中了,例如:零售中的精准营销、店铺管理、品类管理、库存管理;金融中的普惠金融、风控管理、智能投顾;物流中的线路优化、运营风控等。 但是过去由于数据采集和分析能力的局限,大部分数据场景仅仅局限于经营分析,对于整体的业务场景的支持作用有限。 每个数据场景都是对应着一个业务场景,业务场景往往可以演绎成一个系统,数据场景同样也可以演绎成一个系统的数据应用场景。 大多数的业务场景都是一个复杂的系统,这个复杂的系统往往是多个层次,每个层次又是由多个尺度组成了一个复杂的系统。我用现在极为火爆的零售场景来举个例子。 零售业态最常讲的尺度有人、货、场,我们来看看线下的大型购物中心,购物中心可能包括多家零售店、超市,组成一个较为复杂的系统。购物中心、零售商家是两个基本层次,每个层次的经营核心都是人、货、场。在这三个尺度上,购物中心与商家的数据采集和应用场景就会有很大差异。

线下购物中心对人的数据掌握一直是个难点,购物中心与商家都逐渐建立了会员体系,但是在用户与客户的转换上,线下商家一直处于被动的模式。 现在,随着 Wi-Fi 等技术的推广应用,建立了更多的数据采集点,但购物中心与商家在数据的维度与深度上依然有较大的差异。例如购物中心只能获取人的流量与轨迹, 获取不了消费关联。

购物中心的系统往往管理到的是商户,这些商户的整体销售数据购物中心可以获取,但到了每个商户的单品销售情况,往往是在单个商家的手上。

线下零售的覆盖范围有限,购物中心的选址与定位,购物中心中零售商家的选择,店铺分布都是需要大量数据来支撑。 可以看出购物中心与零售店两个层次上,零售企业都可以利用自己的人货场数据形成自己层次上的知识。在购物中心这个小的系统上建立一个知识体系来支持自己的运营工作。 购物中心并不是一个孤立的系统,周边的商业环境、配套、线上电商都是这个大系统的一部分,从系统分析的角度,需要更多层次的分析和更多尺度的分析。 我们团队开发了一套方法来系统的解剖和分析一个业务的层次和每个层次中的多个尺度,并识别出其中的关键数据场景,下图描述了这个方法的部分概况。

WX20180130-143444

数据场景的选择

在数据场景中,数据细分场景很多,但数据的采集、存储、应用能力都有很多的局限性,企业的数据负责人需要找到一种系统的分析方法来支持数据分析,让自己的数据应用更加合理。

从单一到复杂

AlphaGo 在围棋方面战胜了人类,这是数据及 AI 领域一次伟大的胜利。但是 AlphaGo 的胜利一直被认为是一次纯粹的干净的数据场景。 首先,围棋对局中的数据与信息的高度一致性,数据能够被完美还原成为信息;其次,信息是完全可以观测的,尽管对弈的人有很多其它因素,但 AlphaGo 完全忽略了人的其它因素;第三,数据中没有噪音,能够完美重现算法;最后,围棋对局中的反馈非常快,这是一个完美的数据、分析、应用、反馈的一个闭环。 大部分实际的系统相对比较复杂,在选择中要充分考虑数据和信息的这几个考虑尺度,把复杂系统分解成为多个相对简单的子系统,并逐步实现数据的价值。

从封闭到开放

在对比零售的线上与线下的用户行为分析时,我们发现,线上的电商特别是大的电商平台例如淘宝、京东,数据场景的封闭性远高于线下的场景,电商平台可以从用户的登录、商品浏览、营销参与、购物意向、订单生成、物流收件、售后服务形成了一个完整的相对封闭的数据场景闭环。 用户的业务数据、行为数据、商品关系相对完整,可以非常客观地评估用户的消费偏好、服务偏好。而线下的零售数据场景则比较开放,销售流程中的开放点太多,增大了数据采集、数据整合和数据分析应用的难度。

从粗放到细化

对于人的描述,生老病死是状态,喜怒哀乐是情绪,衣食住行是消费,爱恨情仇是关系,按照国外文献上的分类方式,这里的每个尺度都被细化成为 64 个不同细分分级。 正是因为人类的复杂程度,对于单个人的精准化营销非常困难。我们通常是把聚焦从单个个体身上拉长到一个人群分类上,通过对人的分群,实现群体特征的聚像,再通过对于特定人群的营销实现精准营销的目标。 那么对于个人的营销是否可以做到精准呢?从人类的实际案例来看,一个线下的营销人员完全可以通过精密设计的营销步骤和多次沟通不断采集信息及反馈, 同时实施带有影响力的信息反馈,最终实现精准营销。 下图描述了通过系统风险方法论定位到数据应用场景的选择样例。 WX20180130-143352

数据引擎

数据场景的选择是在企业中识别出关键的可落地的业务场景,利用采集和积累的数据,产生知识与洞察,而数据应用闭环的最后一个环节是执行。通过一个数据引擎实现数据分析的闭环反馈,实现信息采集及分析的持续优化。 2017 年,我们团队设计了这样的数据引擎的原型,这个原型参考了人的神经系统。 引擎前方是一个实时业务事件引擎,接受外界数据信息并提供数据行动决策反馈; 事件信息经过预处理后由特征选择器根据相应的知识领域,从数据源选择相应的信息特征。 数据的决策由两套系统来支持, 系统 1 由规则引擎来支撑,模拟人的直觉反应,即处于自主控制状态,快速、无意识地做出决策;系统 2 由机器学习模型支撑, 模拟更复杂的行为选择经过深度复杂思考后的决策。 下图展示了这样的一个数据引擎的结构图。 WX20180130-143408

这个系统最早被应用在金融风控中,提供营销反欺诈,交易反欺诈的检测与控制。我们也针对金融反欺诈的需求组织了 8 大类智能决策策略作为数据引擎的策略纲领。 当然这样的系统需要添加更多的能力,包括控制论因素、经济学因素、博弈论等更多复杂的自适应系统能力,才能让这个数据引擎更加健壮。 通过数据、信息、知识、执行的数据能力闭环,后续就是在事上练,不断从大量数据中通过知行合一的方法,修炼数据应用的内功。

数据治理

提起数据治理这个话题我其实比较犯怵。早在 2007 年还在 IBM 工作时,就已经开始接触数据治理的整体框架,在当时的理念当中,IT 是业务创新的增长引擎,而数据就是支持这个引擎运转的汽油。 但数据这个汽油不是我们在市场上已经看到的整理得很标准的 92 号、95 号、98 号汽油。在企业当中,无论是众多应用系统中的结构数据还是散落在各个系统中的大量非结构的数据都非常复杂。 如何找到一个方法把数据和业务需求规整到一起,再用相应的手段促进信息的低损流动,最终促进企业的业务创新,这个方法就是整个数据治理的核心。 在企业数据治理的框架之下,数据治理变成了一个非常复杂的体系,在这个体系中企业的数据成熟度被分成了 5 个级别, 而每个级别都需要基于 11 个类别来度量企业的数据治理能力。 这个数据治理框架较为完备,我们仔细评估这 11 个治理域都是针对数据的治理来定义的,完全实现这样的一套数据治理体系需要一个较为复杂的组织体系及大量的数据治理流程和工具来支撑,往往只有非常大的企业才能支撑一个比较完整的数据治理能力的构建与全面实施。

WX20180130-143646

图片来自:Data-Ed Online Webinar: Data Governance Strategies

仔细回顾过去的数据治理的落地与实践,数据治理体系的落地效果往往并不明显, 回顾总结的教训有几个:数据治理体系过于复杂,往往会被定位在一个 IT 的数据治理部门,部门把大量工作精力集中于治理,反而忘却了数据治理的核心是数据价值。 数据来源于业务,应用于业务,专注于企业级的数据治理往往要跨越多个数据应用业务部门,治理过程庞杂实际上影响了业务部门的效率。 数据驱动的业务,数据驱动的企业叫嚷了很多年,但绝大多数企业的数据应用能力还很低,很难被企业提升到一个战略层次去实施。 同样的道理,数据治理的主要操盘手 CDO(首席数据官),这个职位概念被业界提了很多年,但一个 CDO 上任以后,马上就面临着如何去平衡数据创新、部门协作、生产任务之间的平衡关系。需要一个很强的智商、情商与财商高度结合的高手才能很好处理一个大型企业的数据治理工作。 过去多年的数据实践中,也曾经看到过几个比较好的数据治理切入案例:

案例 1

某大型企业,CDO 上任一个月,就在企业最高管理层的支持下,快速砍出了三板斧:

  1. 收集了企业信息系统中 80% 的现有数据,实现了数据的集中化

  2. 快速梳理了企业数据目录,分发给各个业务部门,征求数据调用需求

  3. 分析了全部需求后,针对数据需求热度,开发了数据服务接口,开始实现对业务部门的数据服务能力。

初见成效以后,才逐渐开始了数据治理的框架建设工作。

案例 2

某大型国企,新 CDO 上任以后,系统调研了当前的企业数据状况及过去几年前任 CDO 在数据标准化、数据整合陷入的各种泥坑后,果断放弃了在当前数据上的各种整合与标准化治理工作。 继而把数据核心人才集中到外界渴求的数据内容上,针对外界需求,开发了一系列数据服务产品,迅速在政府、旅游、金融等领域建立了自己的数据应用能力, 形成数据收入。该 CDO 也成为企业业务创新的代表,成为业界的一个标杆。 这两个案例的共性是这两位 CDO 都把自己的工作中心从管理转移到价值实现上来,个人认为这是数据治理应该遵循的核心原则。下图的两种数据治理的框架图的绘制方式就基本体现了两类数据治理的理念差异。 WX20180130-143622

图片来自:West Monroe

WX20180130-143601图片来自:Data Streams

简化的数据治理

无论数据治理的复杂性如何,数据治理的核心依然是数据资产。围绕着数据资产,有两大类的数据治理方式,分别是垂直治理与水平治理。

垂直治理

垂直治理主要关注于数据产生、数据采集、数据存储、数据转换、数据应用、价值实现的数据垂直治理闭环。 下图描述的是一个企业数据的垂直治理情况。企业级数据治理的数据源来自企业应用系统, 这些数据可能会经过数据应用系统、ODS、数据仓库、数据集市、数据应用等多个数据工程节点。 节点之间的数据转换过程都需要产生大量的元数据,保证数据信息源到数据应用的信息价值过程是垂直治理的一个核心难点。 与此同时,垂直治理同样需要建立相应的治理组织,工作流程及策略标准来保障整个垂直治理的过程。垂直治理是数据治理的基础,如果一个企业对于垂直治理没能建立体系,其它的数据治理必然成为一个空中楼阁,难以发挥其应有的价值。 WX20180130-143544

水平治理

水平治理往往是在企业数据资产化或集中化以后,数据治理的重心逐渐转移到企业级数据资产的价值发掘和探索。从企业来看,数据的价值往往体现在三个主要层面:战略决策支持、管理决策支持和运营决策支持。决策支持的程度由可以定义为业务数据描述、据化诊断、数据预测、智能决策等几个层面。在水平数据治理之下,围绕着数据相关的资产,治理的过程主要有发现、规定、应用、度量等一系列过程。 WX20180130-143530

图片来自:Informatica Blog

在水平治理过程中,需要重点强调的是数据资产并不仅仅是数据本身,还需要考虑到数据相关的业务流程、支撑组织,具体应用当中需要细化到流程的节点,组织也要细化到执行个体上。只有把数据治理覆盖到企业战略、优先级、业务场景、业务策略、业务标准、架构等多个层面上,才能够真正体现数据的全面性与关联性。 第二个需要重点强调的是价值必须深入到这过程中的每一个环节,始终坚持价值为要,才能够更好的实现数据治理的目标。 数据是一个企业的重要资产之一,未来的数据治理可能像财务或人力资源部门一样会成为企业的一个业务功能部门。这个部门会逐渐建立自己的业务流程、管理流程、品质规范、信息生命周期管理过程等众多的管理过程和最佳管理实践。 这个部门会比以前企业业务和 IT 部门之间的关系更加紧密,建立起强大的协作关系来赋能业务部门的关键业务创新。从数据分析技术本身,我们也看到了众多新技术,例如机器学习技术已经被用在数据治理过程当中来数据化关键过程,并且量化管控效果及价值。 随着技术与工具的发展,更多的企业已经开始了数据治理能力的建设,相信数据治理将会从大型企业的样板工程逐步成为企业的标配,实现对数据驱动企业的全面支持。  

  • Feb 09 / 2018
  • 0
Data

锐眼洞察 | 用大数据帮助创业公司成长的三个方法(翻译)

作者:Volodymyr Fedak

原文:3 ways to use Big Data to help your startup grow

译者:TalkingData研发副总裁 闫志涛

本译文禁止商用,转载请注明来源!

译者注: 本文内容没有太多新意,但对大数据目前使用的场景与行业洞察、竞争对手洞察以及客户洞察进行了高度总结,可供参考。

持续成长是创业公司能够生存下去的唯一方法。为了达到这个目标,尽管你愿意贡献你全部的心血和眼泪来努力工作,但有时这些并不足够。大数据可能是你取得胜利的钥匙。 一个常见的误解是,大数据是Google、Facebook、Amazon这些IT巨头的特权。新朋友推荐、照片标签建议、“购买了这些产品的顾客也购买了……”以及其他可被观察到的大数据分析的结果,是来自于构建基础设施、开发工具以及训练机器学习模型等等巨额投资的成果,因此只有大公司才能有资源去做这些。

然而,有趣的是大多数人的认知并不代表真相。事实的真相是,大数据挖掘工具快速发展以及多种流行的大数据可视化工具可供选择,让大数据分析变得更加的方便和实惠,使得它们变成了每个创业公司工具包中非常重要的组成部分。这种方式可以帮助企业发现成长的空间以及产品改进的空间,指出客户的趋势和购买习惯或者发现市场空白,更不用说还能够优化成本。 需要谨记的是使用大数据分析应该有一个清晰的目标,并且优化成本不应该成为唯一的主要目标。

该如何正确的使用大数据分析呢?如下是使用大数据来帮助你的创业公司成长的三个方法。

利用大数据了解你的行业

在你能想到的每一个市场,都有多个公开的数据来源。对于你想了解的任何问题,都有大量的信息,包括公司发布季度报告、分析机构汇总数据,整理为清晰的表格并指出趋势。但是使用传统的商业智能方法或者手动分析可能会耗费你大量的时间、金钱或者二者兼而有之。最好的方法是借助机器学习算法来实现。完成训练之后,它可以利用无服务器计算技术(AWS Lambda或者微软Azure Functions)按需提供当前行业现状的快照。或者,可以构建一个监控工具,针对当前市场趋势和模式的提供持续的监控以及历史数据。

像这样的方案仍旧不能以标准软件包的形式来提供,而必须从有经验的承包商进行服务订购。同时,鉴于第一波炒作期已经过去,在过去几年这种类型的服务价格已大幅度下降,并且也有很多公司开始提供大数据科学服务。

利用大数据了解你的竞争对手

你的竞争对手所提供的产品和服务、以及所强调的功能,他们的客户留下的反馈和指出的缺陷,在各种论坛和社交媒体上都有很多讨论和建议,可以作为类似产品和服务发展方向的参考。 分析这个数据金矿将帮助您找出改善空间、市场空白以及不同的趋势,避免与竞争对手犯同样的错误,并提供目标受众所需的功能和服务。

这是一个持续的过程,需要利用大数据分析和机器学习算法去帮助企业保持耳聪目明,从而能够对市场情况变化进行快速反应。

利用大数据了解你的客户

忠诚的客户是任何企业的主要资产(当然,除了一个强大而充满激情的团队之外)。客户忠诚度是随着时间的推移而建立起来的,包括许多小的因素和效果,如折扣券、VIP俱乐部特权、忠诚奖金等等。然而,这其中很多被认为是理所当然的标准配置,创业公司还应该发明新的方法来赢得和维持客户的忠诚度,并带来品牌宣传和口碑的提升。

其中一种方法是使用大数据来跟踪客户的购买流程,就像我们在之前的文章中所描述的那样:为什么企业应该在竞争对手之前使用大数据

简而言之,了解平均家庭主妇的购物习惯,可以让供应商发送有针对性的广告和有时间限制的优惠券,从而能够打动客户并达成购买。

同样的原则也适用于刚刚起步的创业公司,因为他们必须吸引受众,提供一些新鲜的产品或服务。可以看出,实现和超越客户的期望,正是帮助创业公司成功和成长的所在。

结论

以上是使用大数据来帮助您的创业成长和繁荣的三种方式。 如您所见,使用大数据不再是国际公司的特权。 由于市场的民主化和数据科学服务公司数量的增加,提供了负担得起的大数据分析和机器学习服务,现在创业公司可以从一开始就实现数据驱动。 除了资源的优化配置和有效的市场营销举措外,使用大数据还可以利用快速变化的市场形势来获益。

随时欢迎您 联系我们