:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Posts Categorized / Data

cialis erfaring cialis i norge hva er kamagra cialis efeitos secundarios cialis bula viagra effekt viagra norge viagra på nett viagra nettbutikk viagra infarmed levitra comprimidos cialis uten resept cialis pris levitra eller cialis kamagra gel comprar viagra farmacia
  • Feb 23 / 2018
  • 0
Data

锐眼洞察 | 2018年将成为数据工程师年(翻译)

作者:Alex Woodie

原文:Why 2018 Will be The Year of The Data Engineer

译者:TalkingData架构师 曾晓春

本译文禁止商用,转载请注明来源!

多年来,精通统计、业务和编码技能的数据科学家的短缺一直备受关注。但是,越来越多的企业面临着另一种大数据团队关键人才的短缺,他们对于取得成功至关重要,那就是——数据工程师。

基于数据的系统能够支持项目的分析和事务操作,而数据工程师是设计、构建和维护这一系统的专家。尽管数据工程师不一定掌握数据科学家拥有的技能,比如构建复杂的机器学习模型,但是他们需要完成大量支持数据科学工作所需的其他工作,例如:

  • 构建数据管道以收集数据并将其移动到存储中;
  • 为ETL或ELT过程准备数据;
  • 将数据与脚本语言拼接在一起;
  • 与DBA合作构建数据存储;
  • 确保数据可以随时使用;
  • 使用框架和微服务来提供数据。

简而言之,数据工程师的工作就是向业务需求者提供干净、可靠的数据。与数据科学家的聪明才智相比,数据工程师更像是一位具有实践经验的管道工。如果数据科学家是提出利用新数据源获利的宏伟计划的人,那么数据工程师就会知道如何构建流水线来移动数据,清洗和转换数据,并实现服务以确保数据科学家拥有需要的所有干净、可靠的数据。

没有足够的工程师

大数据中间件开发商Dremio的CEO兼共同创始人Tomer Shiran说:“当一个公司试图将其数据科学项目投入生产时,数据工程师至关重要。因此,数据工程师的需求近来一直在增长。

“为了成功运行一个数据科学项目,数据科学家与数据工程师的数量通常有一个比例。”Shiran说,“但即使是最热门的硅谷公司也无法实现一比二的比例,没有足够的工程人才,他们很昂贵。”

shutterstock_engineer-300x169.jpg

数据工程职位空缺数量超过数据科学的职位空缺约四倍

Shiran说:“分布式数据存储(如Hadoop、Amazon S3和Azure BLOB)的复杂技术特性增加了对数据工程师的需求,因为总的来说,只有工程师才能从系统中获取价值。”

数据工程师的短缺正在推高需求。在Glassdoor上搜索发现,在全美国有107,730个数据工程职位。这些职位列表中的大部分都有超过10万美元、个别超过15万美元的起始工资。相比之下,对数据科学家的职位搜索结果是21,760个——其中很多也是高薪的。事实上,在就业委员会中,有98,218名数据工程师职位,而数据科学家只有24,695名——数据工程师与数据科学家职位的比例几乎为四比一。

Umbel工程高级总监凯文·萨福德(Kevin Safford)表示,工程是Umbel利用其数据平台为体育特许经营带来价值的重要组成部分。

“如果他们试图自己建立这个平台,那将是一场噩梦。”Safford告诉Datanami。“首先,他们不是工程公司、也不是软件公司。我们花了很长时间、很多聪明的人做了大量的努力来构建这个项目。”

Umbel使用各种开源和专有技术(Spark、Cassandra、ElasticSearch等)来建立数据库,跟踪消费者的体育相关指标,包括他们如何购买门票、他们的社交媒体行为、品牌兴趣、以及人口统计和心理状况。

Safford说:“我们有数以万计的标签可以与任何特定的个人相关联,并且整个系统内包含的人群为两亿人。这是一个巨大的数据量。仅仅是要管理这些数据集就非常困难,使它可用于信息检索并迅速实现就更加的难,甚至可以说这是非常不凡的。”

并行的大数据世界

Overstock.com集团产品经理Craig Kelly 表示,在数据科学领域有两个平行的世界 ——数据管理和统计 ,但它们往往不重叠。“观察我们的数据科学小组的成员,他们都是优秀的数据科学家。”Kelly说。“但他们中没有重量级的数据工程师。”

data-pipe_shutterstock_posteriori-2018a-300x171.jpg

数据工程师负责建立和维护提供新鲜和准确数据的管道

为了构建强大的一对一营销机器,Overstock.com必须克服这一数据工程弱项。他们部分采用了基于云的数据分析解决方案。“我们在数据工程方面没有足够的资源来支持我们要做的事情,所以我们考虑了Snowflake和Databricks弥补了这个不足——不是数据工程方面的专业知识,而是数据工程所需的硬件资源,所以数据科学家可以在不用太依赖其他团队的情况下完成工作。”

实时流分析软件供应商Striim的首席技术官兼创始人史蒂夫·威尔克斯(Steve Wilkes)表示,企业对收集到的数据越来越挑剔,因此他们在做数据整合的前期工作,而不是将数据集成到数据湖中。这正在改变他们如何部署他们的人员以及对人员的工作内容安排 。在某些情况下,数据科学家被要求承担更多的数据工程角色。

“我们更多看到的是数据科学家正在参与最初的数据收集,并开始在数据准备方面有更多的发言权(在它落地之前而不是在落地之后),包括在内存中进行数据准备,以正确的形式获取数据,进行特征提取。” Wilkes说。

工程的成功

Umbel的Safford表示,即使是最好的数据科学项目,数据工程专业知识的短缺也可能导致数据丢失。

他说:“你必须同时解决这两个问题才能取得成功,因为如果花费大量的时间和精力来管理你的数据,而你却无法利用它,那么这将成为巨大的痛点和巨大的成本。与此同时,如果没有非常小心准备、管理和维护一个对所需解决的问题有重要作用的数据集,那么分析团队将无的放矢。”

shutterstock_computer-engieneer_gyn9037-300x199.jpg

工程师正在成为大数据项目的重要团队成员

Safford已经看到许多数据项目因为数据工程执行不力而陷入困境。他说:“构建数据应用程序与构建大规模Web应用程序相比,需要完全不同的专业知识。就像不应该聘请一个建筑商来建造甲板,或者去找一个机械师来照顾你的生活。你不仅仅需要为节约自己的时间而付出成本,还要雇佣专家确保你避免做一些根本错误的事情,这些事情往往在发生之前你都不会注意到,一旦到发生的时就会让你陷入深深的困扰之中。

组织通常认为他们可以在项目工作中获得数据工程的经验。他们通常是错误的,Umbel说。

“必须要辛苦获得在建立数据管道、数据管理系统、数据分析和所有中间代码方面的实践经验,才能使数据可用和可访问,并确保数据是正确的,以确保你所做的分析是正确的,”他说,“如果没有这方面的专业知识,就会自以为随着工作进行就能搞懂这些东西。而且我看到很多人这样想。他们几乎都是错的,而且他们总在犯同样的错误。”

  • Feb 09 / 2018
  • 0
Data, Tech

锐眼洞察 | 2018 关于数据的一些思考

作者:TalkingData 陈雷

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

掉过的那些数据坑

虽然过去的咨询、架构、软件工程管理工作中一直在分析数据、应用数据,一直在填各种坑,但真正跳进数据这个坑是始于 2015 年加入 TalkingData,真正把数据作为自己工作与研究的主体。 2015 年大数据公司的数据应用刚刚起步,我们就已经利用自己积累的数据,率先在行业内建立起一套数据标签体系,这套数据标签体系成为数据服务工作的起点,我们利用这批数据标签建立了移动互联网行业的覆盖和活跃排行榜,为移动用户人群的移动行为画像,起到了很好的示范效应。 随着数据应用逐步深入到深水区域,我们开始深度尝试数据标签在行业中进行精确营销、精细化客户运营、金融用户的风控识别,这时发现原有的标准化数据标签的应用效果参差不齐。 有些标签在特定人群使用中有效果,但换一个人群的效果差异就可能很大。举个例子,我们的标准标签建模后在金融风险客戶甄別上的 KS 值在 0.14 到 0.19 之间,基本属于不可用的范畴。 仔细分析标准标签的原始数据和信息加工场景后,我们对原始数据进行进一步发掘,针对行业需求深入探索数据中的信息含义,定制了一系列的行业标签。 针对金融用户的风控需求,我们从用户的稳定性、金融行为、消费行为、位置趋势、性格偏好等多个金融视角重新制定了一套风控标签,这些标签建模对金融贷款风险用户甄别的 KS 值提升到 029-0.39 之间,基本满足了金融客户对行为数据的期望值。但在金融数据应用金字塔上,行为数据依然处在金字塔的底端,难以撼动金融客户的数据应用习惯。 复盘过去几年做的事,我们总结了数据工程方法论,针对数据应用的层级归纳了数据、信息、知识、洞察、智慧等五个层次。   data_information_knowledge_insight_wisdom-1

图片来自:David Somerville

过去,数据分析师在做数据应用时,起点常常是数据标签,数据标签属于信息层面。只有当信息不足的时候我们才把数据分析的开始层次回退到数据层面,直接在数据中提取更加丰富的信息内容。 这样的经验与教训过程进一步促发了更多思考:

  • 采集和使用的原始数据是否真实?

  • 数据的丰富程度能否满足应用需求?

  • 数据工程过程中如何保证信息的传递?

这些问题触发我们重新去认识数据与信息,重新去理解数据的本质。

数据的本质

以下是百度百科上查到的数据与信息的定义:

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据作具有含义的解释。 数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现心事,信息是数据有意义的表示。 数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

可以看出,这里数据及信息的定义还是比较生硬,比较模糊, 而在实际应用中数据与信息有很深的联系,常常被混合用在一起。 我重新把信息与数据的关系拉开看,用下面的图来表述这个关系。 WX20180130-105719   有种说法是世界上几乎任何事物都可以用信息的方式量化。这里的事物就是信息的主体,信息主体的信息被采集并量化(比特化的过程),数据就是这个信息量化后的载体。作为载体,数据本身不带有任何目标,也不是目标,数据的应用才是数据价值所在和最终目标。 数据的应用过程的起点就是信息的还原,信息的表现往往也是以数据形式存在。 在 TalkingData 的数据中信息的主体就是人,但 TalkingData 并不是对人的信息直接采集,而是通过现代人的随身必备的介质——手机,来采集人的信息。 信息的釆集是通过 SDK 获取的信息主体所做的移动互联网行为数据。当然,从信息主体的人的角度来看,TalkingData 的数据采集能力只是很有限的能力,采集的数据也仅仅是人这个信息主体上的数据片段。 信息主体能够被数据化的能力取决于数据的釆集技术和能力的发展。过去,在小数据时代,人的信息釆集能力仅限于关键性信息,而且很多的数据分布在无数不同的场景中,很难收集、归拢,也无法真正还原信息主体上的信息。 随着各种全新的信息釆集手段出现,信息采集越来越丰富,才能越来越接近信息主体的真相。也就是车老师在《数据的本质》一书中谈及的完美数据。

完美数据

完美数据的提出来源于车品觉老师的书《数据的本质》,完美数据是基于一个假设:信息主体上的所有信息都是可以获取的。随着数据技术的发展,信息主体上的信息采集和数字化能力正在不断提升,完美信息正在趋近。 WX20180130-143250  

《数据的本质》TalkingData 定制版

完美数据的依据是数据采集能力变化,生活在现代社会,正常的人完全无法避开周边无孔不入的数据采集。 上个网浏览个网站,网站会记录你的浏览历史;网店买个商品,网店会记录你的所有浏览记录、交易记录;用着手机,手机上的各款应用都在记录你的移动互联网行为信息;线下逛个商场,流量摄像头、Wi-Fi 服务、Wi-Fi 探针在统计着客流量的同时,也在记录着客流轨迹;走在城市的街道上,周边的无数安保摄像头也在不停的记录着人群的图像; 在家里, 每个智能家电在提供生活便利的同时, 也在不断累积你的行为历史。 可能大家已经很恐慌了,我们的数据都在不停地被各种收集手段收集,是不是以后就没有隐私了。罗胖的跨年演讲也在用比特化脑洞的概念来强化这份焦虑。其实这些数据离完美数据的方向还很远。 举个例子,图像记录生活从远古就已经存在,图像的比特化也开始于电子图片产生,但是图片中蕴含的信息却极其复杂,现在的 AI 的图像识别能力在深度信息获取上依然有很大的局限。具体可以参考朱松纯教授在视觉求索微信公众号中的文章《浅谈人工智能:现状、任务、构架与统一》中的计算机视觉:从深到暗一节。 实现完美数据的障碍在一段时间内依然很大,体现在几个方面:信息主题的数据采集能力还不完善;采集后的数据可能分散在多个数据 DOMAIN 中,数据的整合成本与难度较大;数据的信息还原能力不足,导致大量数据无法应用,空耗着数据存储的巨大成本。 数据圈一直有个暗数据的概念,暗数据特指那些已经被采集的数据但还没有被发掘和理解的数据。 据统计,大部分企业暗数据的占比高达 90%。再拿宇宙来类比,据估算,宇宙中的暗物质、暗能量更是高达 96%。按照这样估算,我们当前能够采集的数据占完美数据的比重小得可怜。

big-data-dark-data

图片来自:KDnuggets

数据分析师们是否要开始焦虑了? 信息的作用是应用场景,既然没有绝对的完美数据,我们可否寻找业务中的最佳数据应用场景?这些场景能够在一个相对小的环境内,实现准完美数据的应用。

数据场景

场景这个词这几年很是流行,原来用于文化圈的一个词被重构用来展示人与商业的连接。伴随着新场景的创造,新体验、新流行、新洞察、新生活方式等新物种层出不穷。 数据场景展示的是数据与业务场景的连接,数据很早就已经被应用于各类业务场景中了,例如:零售中的精准营销、店铺管理、品类管理、库存管理;金融中的普惠金融、风控管理、智能投顾;物流中的线路优化、运营风控等。 但是过去由于数据采集和分析能力的局限,大部分数据场景仅仅局限于经营分析,对于整体的业务场景的支持作用有限。 每个数据场景都是对应着一个业务场景,业务场景往往可以演绎成一个系统,数据场景同样也可以演绎成一个系统的数据应用场景。 大多数的业务场景都是一个复杂的系统,这个复杂的系统往往是多个层次,每个层次又是由多个尺度组成了一个复杂的系统。我用现在极为火爆的零售场景来举个例子。 零售业态最常讲的尺度有人、货、场,我们来看看线下的大型购物中心,购物中心可能包括多家零售店、超市,组成一个较为复杂的系统。购物中心、零售商家是两个基本层次,每个层次的经营核心都是人、货、场。在这三个尺度上,购物中心与商家的数据采集和应用场景就会有很大差异。

线下购物中心对人的数据掌握一直是个难点,购物中心与商家都逐渐建立了会员体系,但是在用户与客户的转换上,线下商家一直处于被动的模式。 现在,随着 Wi-Fi 等技术的推广应用,建立了更多的数据采集点,但购物中心与商家在数据的维度与深度上依然有较大的差异。例如购物中心只能获取人的流量与轨迹, 获取不了消费关联。

购物中心的系统往往管理到的是商户,这些商户的整体销售数据购物中心可以获取,但到了每个商户的单品销售情况,往往是在单个商家的手上。

线下零售的覆盖范围有限,购物中心的选址与定位,购物中心中零售商家的选择,店铺分布都是需要大量数据来支撑。 可以看出购物中心与零售店两个层次上,零售企业都可以利用自己的人货场数据形成自己层次上的知识。在购物中心这个小的系统上建立一个知识体系来支持自己的运营工作。 购物中心并不是一个孤立的系统,周边的商业环境、配套、线上电商都是这个大系统的一部分,从系统分析的角度,需要更多层次的分析和更多尺度的分析。 我们团队开发了一套方法来系统的解剖和分析一个业务的层次和每个层次中的多个尺度,并识别出其中的关键数据场景,下图描述了这个方法的部分概况。

WX20180130-143444

数据场景的选择

在数据场景中,数据细分场景很多,但数据的采集、存储、应用能力都有很多的局限性,企业的数据负责人需要找到一种系统的分析方法来支持数据分析,让自己的数据应用更加合理。

从单一到复杂

AlphaGo 在围棋方面战胜了人类,这是数据及 AI 领域一次伟大的胜利。但是 AlphaGo 的胜利一直被认为是一次纯粹的干净的数据场景。 首先,围棋对局中的数据与信息的高度一致性,数据能够被完美还原成为信息;其次,信息是完全可以观测的,尽管对弈的人有很多其它因素,但 AlphaGo 完全忽略了人的其它因素;第三,数据中没有噪音,能够完美重现算法;最后,围棋对局中的反馈非常快,这是一个完美的数据、分析、应用、反馈的一个闭环。 大部分实际的系统相对比较复杂,在选择中要充分考虑数据和信息的这几个考虑尺度,把复杂系统分解成为多个相对简单的子系统,并逐步实现数据的价值。

从封闭到开放

在对比零售的线上与线下的用户行为分析时,我们发现,线上的电商特别是大的电商平台例如淘宝、京东,数据场景的封闭性远高于线下的场景,电商平台可以从用户的登录、商品浏览、营销参与、购物意向、订单生成、物流收件、售后服务形成了一个完整的相对封闭的数据场景闭环。 用户的业务数据、行为数据、商品关系相对完整,可以非常客观地评估用户的消费偏好、服务偏好。而线下的零售数据场景则比较开放,销售流程中的开放点太多,增大了数据采集、数据整合和数据分析应用的难度。

从粗放到细化

对于人的描述,生老病死是状态,喜怒哀乐是情绪,衣食住行是消费,爱恨情仇是关系,按照国外文献上的分类方式,这里的每个尺度都被细化成为 64 个不同细分分级。 正是因为人类的复杂程度,对于单个人的精准化营销非常困难。我们通常是把聚焦从单个个体身上拉长到一个人群分类上,通过对人的分群,实现群体特征的聚像,再通过对于特定人群的营销实现精准营销的目标。 那么对于个人的营销是否可以做到精准呢?从人类的实际案例来看,一个线下的营销人员完全可以通过精密设计的营销步骤和多次沟通不断采集信息及反馈, 同时实施带有影响力的信息反馈,最终实现精准营销。 下图描述了通过系统风险方法论定位到数据应用场景的选择样例。 WX20180130-143352

数据引擎

数据场景的选择是在企业中识别出关键的可落地的业务场景,利用采集和积累的数据,产生知识与洞察,而数据应用闭环的最后一个环节是执行。通过一个数据引擎实现数据分析的闭环反馈,实现信息采集及分析的持续优化。 2017 年,我们团队设计了这样的数据引擎的原型,这个原型参考了人的神经系统。 引擎前方是一个实时业务事件引擎,接受外界数据信息并提供数据行动决策反馈; 事件信息经过预处理后由特征选择器根据相应的知识领域,从数据源选择相应的信息特征。 数据的决策由两套系统来支持, 系统 1 由规则引擎来支撑,模拟人的直觉反应,即处于自主控制状态,快速、无意识地做出决策;系统 2 由机器学习模型支撑, 模拟更复杂的行为选择经过深度复杂思考后的决策。 下图展示了这样的一个数据引擎的结构图。 WX20180130-143408

这个系统最早被应用在金融风控中,提供营销反欺诈,交易反欺诈的检测与控制。我们也针对金融反欺诈的需求组织了 8 大类智能决策策略作为数据引擎的策略纲领。 当然这样的系统需要添加更多的能力,包括控制论因素、经济学因素、博弈论等更多复杂的自适应系统能力,才能让这个数据引擎更加健壮。 通过数据、信息、知识、执行的数据能力闭环,后续就是在事上练,不断从大量数据中通过知行合一的方法,修炼数据应用的内功。

数据治理

提起数据治理这个话题我其实比较犯怵。早在 2007 年还在 IBM 工作时,就已经开始接触数据治理的整体框架,在当时的理念当中,IT 是业务创新的增长引擎,而数据就是支持这个引擎运转的汽油。 但数据这个汽油不是我们在市场上已经看到的整理得很标准的 92 号、95 号、98 号汽油。在企业当中,无论是众多应用系统中的结构数据还是散落在各个系统中的大量非结构的数据都非常复杂。 如何找到一个方法把数据和业务需求规整到一起,再用相应的手段促进信息的低损流动,最终促进企业的业务创新,这个方法就是整个数据治理的核心。 在企业数据治理的框架之下,数据治理变成了一个非常复杂的体系,在这个体系中企业的数据成熟度被分成了 5 个级别, 而每个级别都需要基于 11 个类别来度量企业的数据治理能力。 这个数据治理框架较为完备,我们仔细评估这 11 个治理域都是针对数据的治理来定义的,完全实现这样的一套数据治理体系需要一个较为复杂的组织体系及大量的数据治理流程和工具来支撑,往往只有非常大的企业才能支撑一个比较完整的数据治理能力的构建与全面实施。

WX20180130-143646

图片来自:Data-Ed Online Webinar: Data Governance Strategies

仔细回顾过去的数据治理的落地与实践,数据治理体系的落地效果往往并不明显, 回顾总结的教训有几个:数据治理体系过于复杂,往往会被定位在一个 IT 的数据治理部门,部门把大量工作精力集中于治理,反而忘却了数据治理的核心是数据价值。 数据来源于业务,应用于业务,专注于企业级的数据治理往往要跨越多个数据应用业务部门,治理过程庞杂实际上影响了业务部门的效率。 数据驱动的业务,数据驱动的企业叫嚷了很多年,但绝大多数企业的数据应用能力还很低,很难被企业提升到一个战略层次去实施。 同样的道理,数据治理的主要操盘手 CDO(首席数据官),这个职位概念被业界提了很多年,但一个 CDO 上任以后,马上就面临着如何去平衡数据创新、部门协作、生产任务之间的平衡关系。需要一个很强的智商、情商与财商高度结合的高手才能很好处理一个大型企业的数据治理工作。 过去多年的数据实践中,也曾经看到过几个比较好的数据治理切入案例:

案例 1

某大型企业,CDO 上任一个月,就在企业最高管理层的支持下,快速砍出了三板斧:

  1. 收集了企业信息系统中 80% 的现有数据,实现了数据的集中化

  2. 快速梳理了企业数据目录,分发给各个业务部门,征求数据调用需求

  3. 分析了全部需求后,针对数据需求热度,开发了数据服务接口,开始实现对业务部门的数据服务能力。

初见成效以后,才逐渐开始了数据治理的框架建设工作。

案例 2

某大型国企,新 CDO 上任以后,系统调研了当前的企业数据状况及过去几年前任 CDO 在数据标准化、数据整合陷入的各种泥坑后,果断放弃了在当前数据上的各种整合与标准化治理工作。 继而把数据核心人才集中到外界渴求的数据内容上,针对外界需求,开发了一系列数据服务产品,迅速在政府、旅游、金融等领域建立了自己的数据应用能力, 形成数据收入。该 CDO 也成为企业业务创新的代表,成为业界的一个标杆。 这两个案例的共性是这两位 CDO 都把自己的工作中心从管理转移到价值实现上来,个人认为这是数据治理应该遵循的核心原则。下图的两种数据治理的框架图的绘制方式就基本体现了两类数据治理的理念差异。 WX20180130-143622

图片来自:West Monroe

WX20180130-143601图片来自:Data Streams

简化的数据治理

无论数据治理的复杂性如何,数据治理的核心依然是数据资产。围绕着数据资产,有两大类的数据治理方式,分别是垂直治理与水平治理。

垂直治理

垂直治理主要关注于数据产生、数据采集、数据存储、数据转换、数据应用、价值实现的数据垂直治理闭环。 下图描述的是一个企业数据的垂直治理情况。企业级数据治理的数据源来自企业应用系统, 这些数据可能会经过数据应用系统、ODS、数据仓库、数据集市、数据应用等多个数据工程节点。 节点之间的数据转换过程都需要产生大量的元数据,保证数据信息源到数据应用的信息价值过程是垂直治理的一个核心难点。 与此同时,垂直治理同样需要建立相应的治理组织,工作流程及策略标准来保障整个垂直治理的过程。垂直治理是数据治理的基础,如果一个企业对于垂直治理没能建立体系,其它的数据治理必然成为一个空中楼阁,难以发挥其应有的价值。 WX20180130-143544

水平治理

水平治理往往是在企业数据资产化或集中化以后,数据治理的重心逐渐转移到企业级数据资产的价值发掘和探索。从企业来看,数据的价值往往体现在三个主要层面:战略决策支持、管理决策支持和运营决策支持。决策支持的程度由可以定义为业务数据描述、据化诊断、数据预测、智能决策等几个层面。在水平数据治理之下,围绕着数据相关的资产,治理的过程主要有发现、规定、应用、度量等一系列过程。 WX20180130-143530

图片来自:Informatica Blog

在水平治理过程中,需要重点强调的是数据资产并不仅仅是数据本身,还需要考虑到数据相关的业务流程、支撑组织,具体应用当中需要细化到流程的节点,组织也要细化到执行个体上。只有把数据治理覆盖到企业战略、优先级、业务场景、业务策略、业务标准、架构等多个层面上,才能够真正体现数据的全面性与关联性。 第二个需要重点强调的是价值必须深入到这过程中的每一个环节,始终坚持价值为要,才能够更好的实现数据治理的目标。 数据是一个企业的重要资产之一,未来的数据治理可能像财务或人力资源部门一样会成为企业的一个业务功能部门。这个部门会逐渐建立自己的业务流程、管理流程、品质规范、信息生命周期管理过程等众多的管理过程和最佳管理实践。 这个部门会比以前企业业务和 IT 部门之间的关系更加紧密,建立起强大的协作关系来赋能业务部门的关键业务创新。从数据分析技术本身,我们也看到了众多新技术,例如机器学习技术已经被用在数据治理过程当中来数据化关键过程,并且量化管控效果及价值。 随着技术与工具的发展,更多的企业已经开始了数据治理能力的建设,相信数据治理将会从大型企业的样板工程逐步成为企业的标配,实现对数据驱动企业的全面支持。  

  • Feb 09 / 2018
  • 0
Data

锐眼洞察 | 用大数据帮助创业公司成长的三个方法(翻译)

作者:Volodymyr Fedak

原文:3 ways to use Big Data to help your startup grow

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源!

译者注: 本文内容没有太多新意,但对大数据目前使用的场景与行业洞察、竞争对手洞察以及客户洞察进行了高度总结,可供参考。

持续成长是创业公司能够生存下去的唯一方法。为了达到这个目标,尽管你愿意贡献你全部的心血和眼泪来努力工作,但有时这些并不足够。大数据可能是你取得胜利的钥匙。 一个常见的误解是,大数据是Google、Facebook、Amazon这些IT巨头的特权。新朋友推荐、照片标签建议、“购买了这些产品的顾客也购买了……”以及其他可被观察到的大数据分析的结果,是来自于构建基础设施、开发工具以及训练机器学习模型等等巨额投资的成果,因此只有大公司才能有资源去做这些。

然而,有趣的是大多数人的认知并不代表真相。事实的真相是,大数据挖掘工具快速发展以及多种流行的大数据可视化工具可供选择,让大数据分析变得更加的方便和实惠,使得它们变成了每个创业公司工具包中非常重要的组成部分。这种方式可以帮助企业发现成长的空间以及产品改进的空间,指出客户的趋势和购买习惯或者发现市场空白,更不用说还能够优化成本。 需要谨记的是使用大数据分析应该有一个清晰的目标,并且优化成本不应该成为唯一的主要目标。

该如何正确的使用大数据分析呢?如下是使用大数据来帮助你的创业公司成长的三个方法。

利用大数据了解你的行业

在你能想到的每一个市场,都有多个公开的数据来源。对于你想了解的任何问题,都有大量的信息,包括公司发布季度报告、分析机构汇总数据,整理为清晰的表格并指出趋势。但是使用传统的商业智能方法或者手动分析可能会耗费你大量的时间、金钱或者二者兼而有之。最好的方法是借助机器学习算法来实现。完成训练之后,它可以利用无服务器计算技术(AWS Lambda或者微软Azure Functions)按需提供当前行业现状的快照。或者,可以构建一个监控工具,针对当前市场趋势和模式的提供持续的监控以及历史数据。

像这样的方案仍旧不能以标准软件包的形式来提供,而必须从有经验的承包商进行服务订购。同时,鉴于第一波炒作期已经过去,在过去几年这种类型的服务价格已大幅度下降,并且也有很多公司开始提供大数据科学服务。

利用大数据了解你的竞争对手

你的竞争对手所提供的产品和服务、以及所强调的功能,他们的客户留下的反馈和指出的缺陷,在各种论坛和社交媒体上都有很多讨论和建议,可以作为类似产品和服务发展方向的参考。 分析这个数据金矿将帮助您找出改善空间、市场空白以及不同的趋势,避免与竞争对手犯同样的错误,并提供目标受众所需的功能和服务。

这是一个持续的过程,需要利用大数据分析和机器学习算法去帮助企业保持耳聪目明,从而能够对市场情况变化进行快速反应。

利用大数据了解你的客户

忠诚的客户是任何企业的主要资产(当然,除了一个强大而充满激情的团队之外)。客户忠诚度是随着时间的推移而建立起来的,包括许多小的因素和效果,如折扣券、VIP俱乐部特权、忠诚奖金等等。然而,这其中很多被认为是理所当然的标准配置,创业公司还应该发明新的方法来赢得和维持客户的忠诚度,并带来品牌宣传和口碑的提升。

其中一种方法是使用大数据来跟踪客户的购买流程,就像我们在之前的文章中所描述的那样:为什么企业应该在竞争对手之前使用大数据

简而言之,了解平均家庭主妇的购物习惯,可以让供应商发送有针对性的广告和有时间限制的优惠券,从而能够打动客户并达成购买。

同样的原则也适用于刚刚起步的创业公司,因为他们必须吸引受众,提供一些新鲜的产品或服务。可以看出,实现和超越客户的期望,正是帮助创业公司成功和成长的所在。

结论

以上是使用大数据来帮助您的创业成长和繁荣的三种方式。 如您所见,使用大数据不再是国际公司的特权。 由于市场的民主化和数据科学服务公司数量的增加,提供了负担得起的大数据分析和机器学习服务,现在创业公司可以从一开始就实现数据驱动。 除了资源的优化配置和有效的市场营销举措外,使用大数据还可以利用快速变化的市场形势来获益。

  • Jan 22 / 2018
  • 0
Data, Tech

锐眼洞察 | 数据质量六步法(翻译)

作者:Ramesh Dontha

原文:Data Quality – A Simple 6 Step Process

译者:TalkingData数据科学家 孙强

本译文禁止商用,转载请注明来源!

我们都听说过很多关于低数据质量的恐怖故事。很多公司拥有数百万条记录,包括客户联系号码“(000)000-0000”、购买日期“99/99/99”、12个不同的性别值、没有状态信息的送货地址等等。“脏数据”为企业和组织带来了实际的成本消耗。 例如,美国邮政总局估计,2013年在处理由于数据质量差而导致无法投递的邮件上花费了15亿美元。 质量差的数据来源可能很多,但可以大致分为数据输入、数据处理、数据集成、数据转换和过时数据(陈旧的数据)。

那么,您改如何确保数据始终保持高质量? 人们越来越意识到数据对于做出明智决策的重要性,数据不准确会导致灾难性的后果。 挑战在于确保企业为其业务收集/采购相关的数据,以有意义和可持续的方式管理/治理这些数据,以确保关键主数据的高质量记录,并通过分析高质量数据以实现预定的业务目标。 基于数据质量专家和从业者的最佳实践,我们制定了6个步骤的数据质量框架。

第1步 – 定义

明确改进数据质量所要实现的业务目标,数据所有者/利益相关方,受影响的业务流程和数据规则。

以客户数据为例:

  • 目标:确保所有客户记录都是唯一的、信息准确性(例如:地址、电话号码等)、跨多系统数据的一致性等。
  • 数据所有者:销售副总裁
  • 利益相关方:金融、营销和生产
  • 受影响的业务流程:订单输入、开票、履行等
  • 数据规则:规则1 – 客户名称和地址应该是唯一的;规则2 – 所有的地址都应根据经核准的地址参考数据库进行核实

第2步 – 评估

根据定义步骤中规定的规则评估现有数据。 从关键属性的准确性、所有必要属性的完整性、跨多个数据集的属性的一致性、数据的及时性等多维度,对数据进行评估。根据每个企业的数据量、数据种类和数据质量项目的范围, 我们可能会使用一些分析工具进行定性和/或定量评估。 这是评估现有政策(数据访问、数据安全性、遵守特定行业标准/指南等)的阶段。

举例:

  • 评估客户记录中唯一性记录(包括姓名和地址)的占比;评估关键属性中等非空值的占比。

第3步 – 分析

对评估结果进行多方面分析。其中一个需要分析的方面是DQ业务目标与当前数据之间的差距。另一个需要分析的方面是数据质量较差的根本原因(如果是这样的话)。

举例:

如果客户地址不准确,不符合业务定义的目标,那么根源是什么? 是否是订单输入应用程序数据验证问题? 或者参考地址数据不准确?如果订单输入系统中的客户名称与财务系统中的不一致,是什么造成了这种不一致?

第4步 – 改进

根据前期分析设计和制定改进计划。 计划应该包含所涉及的时间表、资源和成本。

举例:

所有应用程序对地址的修改必须经过选定地址参考数据库的验证;客户名称只能通过订单输入应用修改;对系统的调整将需要6个月的时间才能实现,并需要XYZ资源和$$$。

第5步 – 实施

实施在改进阶段确定的解决方案。掌握技术以及其他业务流程相关的变化。实施全面的“变革管理”计划,确保所有利益相关方得到适当培训。

第六步-控制

定期验证数据是否与定义步骤中规定的业务目标和数据规则保持一致。定期向所有利益相关方传达数据质量指标和当前状态,以确保整个组织持续保持数据质量规范。

数据质量不是一次性项目,而是一个持续的过程,要求整个组织都以数据为导向、以数据为中心。 从大局来看,数据质量管理可以为组织带来丰厚收益。

  • Jan 17 / 2018
  • 0
Data, Tech

锐眼洞察 | 数据管理的未来:一场工业革命(翻译)

作者:Amber Lee Dennis

原文:The Future of Data Management: An Evolution of the Industry

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明作者与来源!

DATAVERSITY最近采访了MapR创始人John Schroeder,以了解他对数据管理领域未来发展方向的想法。 Schroeder在企业软件领域拥有超过20年的经验,专注于数据库管理和商业智能。 这样的背景使Schroeder洞察到数据管理的世界如何随着时间的推移而变化,以及现在发生的主要趋势。

人工智能的重振

人工智能(AI)现在已经回到了主流讨论中,Schroeder说,它是涵盖了机器智能、机器学习、神经网络和认知计算的一个热门词汇。

人工智能将被快速采用,使用在大型数据集上部署的简单算法来解决重复的自动化任务。他说,与传统平台相比, “谷歌已经提到简单的算法,经常执行大数据集比使用更小集的其他方法产生更好的结果。”

他补充说:“使用现代和传统的处理模式,可以处理三个V的水平可伸缩平台:速度,种类和数量可以提供10-20倍的成本效率。”我们将看到应用人工智能 到高容量的重复性任务“。

Schroeder展示了一种简单的AI使用方法,它将特定的客户购物属性分组到聚簇。 他说:“聚类是非常基本的人工智能算法之一,因为一旦你可以聚集项,那么你可以预测一些行为。 现在可以调整大量数据的算法,以便聚簇变得更紧密、更快速,这使得数据保持新鲜和相关。 当单个聚簇中的点之间的标准偏差尽可能紧时,可以在整个聚簇中进行假设,并向该聚簇内的其他客户提供报价和服务,并具有合理的成功预期。

当将聚簇建立到像亚马逊或沃尔玛这样的在线零售商的运营系统时,影响行为的潜力是显著的。 他说,在一个静态定价的在线目录中,购物车的放弃率是“走到尽头”。 但是通过使用人工智能,商店可以推荐其他产品,同时实时搜索具有竞争力的价格,动态调整价格,提供店内优惠券和价格保证,让客户感觉到自己得到了最好的产品价格可用。

“这是世界的速度。 他说:“客户在切换到另一家公司之前,要实时向每一位用户实时提供个人信息。”

大数据治理vs竞争优势

“治理与数据价值”的拔河将从前沿向中心移动。 企业拥有大量有关其客户和合作伙伴的信息,现在正面临着法规遵从所需的数据治理与免费使用数据以提供业务价值,同时避免破坏性数据泄漏或违规行为之间的拉锯战。

Schroeder表示,主数据管理(MDM)是一个大问题,一段时间内,这是一个很大的问题。 对于任何组织来说,“跟上治理,血统,安全和访问”是非常非常非常困难的,尤其是在扩大组织中使用的数据量的时候。 他说,更聪明的组织正在问:“我们的数据的哪一部分必须被管理和遵从,还有其他哪些数据源不需要这些? 所以它可以让他们摆脱世界上所有的MDM的老鼠洞。”

“如果我说:’你今天晚上为什么不回家去,把你家里每件物品的Excel表格都打上电子表格,然后记录下任何人接触,使用或吃的东西’,你什么都做不了,对不对? 所以你不得不说,有人吃了香蕉,我得去更新数据库。“

他说,领先的组织将在受管制和非受管制用例之间应用数据管理。 受管制的用例需要数据治理,数据质量和数据沿袭,因此,监管机构可以通过对原始来源的所有转换来报告和跟踪数据。 这是强制性的和必要的,但是对非实时数据以及结构化和非结构化数据混合产生更有效的结果的非监管用例进行限制。

公司专注于数据湖泊,而不是沼泽

组织正在从“构建它,其他的都会跟来”的数据湖方法转向实现业务驱动的数据方法。 Schroeder说,使用案例导向驱动了分析和操作的结合。

一些公司梦想有一个数据湖,所有的事情都是在“一个集中的,安全的,全面管理的地方收集的,任何部门都可以随时随地访问”,Schroeder说。 这听起来很有吸引力,但是往往会导致数据沼泽,无法满足实时和操作用例要求,最终看起来更像是重建的数据仓库。

事实上,今天的世界发展速度更快。

Schroeder表示,为了与当今这个快速发展的世界展开竞争,企业需要分析和运营能力来解决客户的需求,并在个人层面实时处理设备与设备的接口。

“电子商务网站必须实时提供个性化的建议和价格检查。 医疗机构必须处理有效的索赔,并通过将分析与操作系统相结合来阻止欺诈索赔。 媒体公司正在通过机顶盒对内容进行个性化处理。 汽车制造商和乘坐分享公司正在与汽车和司机进行大规模的互动。“
有一个预定义的业务用例是不够的。 这个企业必须“足够有远见,以至于能够考虑接下来的几个用例,所以他们不想仅仅为第一个用例服务就把自己逼到一个角落”。

他预测,提前定义用例的企业将会是最成功的,因为“客户在表达需求方面做得更好,他们知道价值会是什么”,这与广义的“构建它,他们会来”的想法相反 。

提供这些用例需要一个敏捷平台,可以提供分析和运营处理,以增加从后台分析到前台运营的其他用例的价值。 组织将超越“提问”方法,构建推动初始和长期的商业价值。

数据敏捷性区分赢家和输家

Schroeder表示,处理和分析模型的发展将提供与DevOps类似的灵活性,因为组织认识到数据敏捷性(理解数据和采取业务行动的能力)是竞争优势的来源。

“公司可能会犯的错误是实施一个单一的方法。 他们会说,’我们真正需要的是能够做Spark处理。 所以我们要用一种只能做Spark的技术来做到这一点,然后他们在三个月的时间里就会说:’好了,现在我们必须把这个显示给很多用户,所以我们 需要做全球信息传递[但是]我们部署的平台不会这样做。 我们现在干什么?

与其引入另一种消息传递技术,并试图找到一种在Spark和全球消息传递之间传递数据的方法,然后设置访问控制和安全角色等等,企业可以使用技术使其更加敏捷, 而不是陷入一个特定的平台,他说。

“敏捷处理模型的出现将使相同的数据实例支持多种用途:批量分析,交互式分析,全局消息传递,数据库和基于文件的模型。 当单个数据实例可以支持更广泛的工具集时,分析模型更加敏捷。 最终的结果是支持最广泛的处理和分析模型的敏捷开发和应用程序平台。”

区块链转换选择金融服务应用程序

Schroeder表示:“金融服务中将出现选择性的转型用例,这些用例对数据存储和交易的处理方式有着广泛的影响。 他说:“区块链为消费者提供了明显的效率。 因为客户不必等待SWIFT交易,也不必担心中央数据中心泄露的影响。

Don Tapscott与Blockchain Revolution的合伙人Alex Tapscott在一篇名为“区块链将改变你的生活”的文章中写道:

“大银行和一些政府正在实施区块链作为分布式账本来革新信息存储和交易的发生方式。 他们的目标是值得赞美的 – 速度快,成本低,安全性好,错误少,消除了中心点和失败点。”

Schroeder继续说,作为一个信任协议,区块链提供了“一个全球性的分布式账簿,改变了数据存储和交易的处理方式。”由于它运行在遍布全球的计算机上,Tapscott补充道。

“没有中央数据库可以破解。 区块链是公开的:任何人都可以随时查看,因为它驻留在网络上,而不是在一个负责审核交易和保存记录的机构内。

事务存储在块中,每块指向前面的块,块都打上了时间戳,数据存储在一个不能改变的格式中,Schroeder说。 “对于企业来说,区块链提供了节约成本和增强竞争优势的机会。”

机器学习最大化微服务影响

数据管理将看到机器学习和微服务整合的增加,他说。 先前的微服务部署集中在轻量级服务上,那些已经包含了机器学习,通常仅限于应用于窄带数据流的“快速数据”集成,Schroeder说:“我们将看到一个发展转向利用大数据的有状态应用程序,并且使用机器学习方法,这种方法使用了大量的历史数据,以更好地了解新到达的流数据的上下文。”

  • Jan 17 / 2018
  • 0
Data, Tech

锐眼洞察 | 大规模数据管理系统Data Tamer介绍(翻译)

作者:Michael Stonebraker、Daniel Bruckner、Ihab F. Ilyas、George Beskales、Mitch Cherniack、Stan Zdonik、Alexander Pagan、Shan Xu

原文:Data Curation at Scale: The Data Tamer System

译者:TalkingData数据产品经理 张雪渊

本译文禁止商用,转载请注明来源与译者!

注:

本文翻译自MIT关于Data Tamer的一篇论文,详细信息可查看

摘要

数据管理是发现兴趣数据源,清理、转换新的数据,在语义上将其与其他本地数据源进行整合,并删除重复数据的行为。现在有很多研究内容是针对数据管理的各个组成部分(特别是数据集成和重复数据删除)。但是,甚少有人将所有数据管理组件集成到一个端到端系统。

另外,以前大部分研究都不会扩展到我们在这个领域发现问题的规模。例如,一个Web聚合器需要管理80,000个URL,一个生物技术公司则需要管理8000个电子表格。在这样的规模下,数据管理不可能是手动(人工)工作,而机器学习方法,人工只在必要时给予协助。

本文介绍Data Tamer,是我们在麻省理工(M.I.T)、布兰代斯(Brandeis)、卡塔尔计算研究所(QCRI)建立的端到端管理系统。Data Tamer将一系列数据源添加到随时间构建的复合结构中。新数据源按照机器学习算法以执行属性标识,将属性分组到表格,转换输入数据及重复数据删除。 必要时可寻求人工帮助。此外,Data Tamer还包含数据可视化组件,个人可以随意检查数据来源或者手动指定数据转换过程。

我们已经在三个真实世界的企业管理问题上运行了Data Tamer,结果显示,相比当前使用的其他生产软件,Data Tamer降低了大约90%的管理成本。

1. 介

在数据集成方面已经有相当多的,特别是在提取,转换和加载(ETL)系统,数据联邦,数据清理,数据规格集成和实体重复数据删除。然而,我们相信未来系统将需要的但是现有方法(系统)通常缺乏以下四个特征:

  • 自动化的可扩展性

我们遇到的所有数据整合问题排除了以人为本的解决方案。下一代系统必将是自动化的算法系统,只有必要时才需要人的帮助。另外,机器学习的进步和统计技术的应用可以用来自动做出许多更简单的决定。

  • 数据清理

企业数据源不可避免地很脏。属性数据可能不正确,不准确或缺失。未来的问题需要自动化解决方案,只有在必要时才需要人工帮助。

  • 非程序员方向

当前提取,转换和加载(ETL)系统具有脚本语言适用于专业程序员。下一代问题要求非专业员工能够进行数据整合任务。

  • 数据一直增加

新数据源必须在未发现时逐步集成,数据整合任务从来没有完成的概念。

这四个问题应该在一个统一的架构中解决,我们称之为数据管理系统。 本文的目的是描述Data Tamer,基于上述需求所研发数据管理系统。 在第2节中,我们首先简要介绍Data Tamer设计要解决的三个示例数据管理问题。然后,第3节继续使用DataTamer实现的语义模型,接着在第4节中对系统的主要组件进行描述。最后,第五部分介绍了一系列关于现实世界的问题的实验。我们在第六部分总结了未来可能加强的部分。

2. 应用案

2.1 Web聚合器

这个聚合器集成了大约80,000个URL,收集有关“要做的事情”和事件的信息。事件包括讲座,音乐会和酒吧的现场音乐。“要做的事情”是指远足路线,气球游乐设施,雪地汽车出租等。层级目录概念被用来组织数据,所有的信息存储到这个结构中的某个层级。

从特定URL收集数据的决定是通过与本文不相关的手动和自动组合完成的。一旦决定,离岸“包装代工厂(etl数据处理工程师)”写代码从URL中提取数据。对于在给定的URL处发送的每个实体,封装器会输出一组键值对,例如(key1-name,value-1),(key2-name,value-2),::,(keyK -name,value-K)。不幸的是,源数据很少是web表,但通常在下拉菜单,文本字段等。 因此,网站封装是有价值的。

这个聚合器需要将这8万个数据源联合成一个语义上紧密的事实集合。80,000个数据源包含大约13M本地记录,大约有200K个本地属性名称。另外还有本地的信息可能不一致,重叠,有时不正确。因此,这个聚合器面临着一个困难的数据管理问题,他们使用一个特定的集合来解决这个问题和以人为本的技术。DataTamer的目的是以比现有解决方案更低的成本在这类问题上做得更好。

2.2 生物学

一家大型制药公司拥有8000名生物学家和化学家进行实验室实验。每个人维护一个“实验室笔记本”,通常是一个电子表格,记录他们的数据和观察结果。大多数科学家使用不同的技术和收集实验特定的数据,如浓度和密度。然而,这8000名科学家中的一些可能正在研究相同的反应,或者从同一个分子开始。整合这8000个来源是非常有价值的,所以所有的科学家都可以更好地了解所有实验研究的反应结果。

不幸的是,属性名称没有标准,没有计量单位的标准,甚至没有为文本语言标准(英语,德语等)。

这8000个电子表格总共包含大约1百万行,100000个属性名称。再次申明,问题的规模使当前的数据集成工具过于昂贵。Data Tamer的目标是比目前的软件以更低的成本做更好的工作。

2.3 健康服务应

Verisk Health为索赔记录进行数据集成,共收集了300家保险公司。他们已经为这些资源手动构建了一个全局数据格式,并正在寻找用更多的自动化手段取代他们的手动流程。 另外,他们的综合数据库包含2000万条记录,他们希望统一医疗提供者的索赔数据。 换句话说,他们希望汇总所有的索赔记录,按提供者分组。实际上,他们想要使用域的一个子集重复数据库。他们目前正在通过大量的人工干预来完成这项任务,并寻找一种成本更低,自动化程度更高的解决方案。DataTamer的目的是以比现有解决方案更低的成本获得更好的结果。

3. Data Tamer语义定义

3.1 角色

Data Tamer设置了以下人员角色:

  • Data Tamer 数据管理员(DTA)

这个角色类似于传统的数据库管理员。因此,DTA负责将角色分配给其他人,并决定在数据管理过程中采取什么行动。具体而言,DTA指定DataTamer必须设法收集的数据源。

  • 领域专家(DE)

这些领域专家可以被要求回答在数据管理过程中出现的问题。每个DE都有一个或多个专业领域,他们被组织成一个创新的众包组织,这将在4.3节中解释。

3.2 Sites and Schemas

Data Tamer假设DTA指定的网站由URL或文件名称。每个网站被假定为一个集合记录,每个记录包含一个或多个键值对。上游封装可能需要构造这种格式从网站实际存储的内容 在目前的时间,Data Tamer并不关注如何降低这类包装的成本。

Data Tamer假定每个本地数据源都有关于一个实体的信息。 因此,如果源是多方面的,则必须使用两个或更多的包装来确保每个源包含仅关于一个实体的数据。 如果每个站点都描述一个不同的实体,那么就没有整合的问题。 因此,Data Tamer的目标是将本地站点分为描述同一个实体的类。 在版本1中,没有必要确定实体之间的关系(例如可能存在于RDBMS中的外键)或者处理其他完整性约束。这些扩展留待将来研究。

对于每一类实体,都有三种可能的信息等级。这取决于数据管理是以自上而下的方式进行还是以自下而上的方式进行。在自上而下的模式中,DTA具有关于他试图实现的模式的信息。 因此,目标是部分或完全指定的。 在自下而上的模式中,这样的全球知识不见了,全球模式被拼凑在一起 从当地的数据来源,可能提示从DTA提供。 任何一个模型都可以用于某个特定的类别的事实导致了以下三个层次的信息。、

  • 等级3:完整的知识

在这种情况下,DTA使用自顶向下的方法给定类实体的完整全局数据规格。通常,DTA还将每个本地数据源映射到特定类别。 但是,如果不这样做,Data Tamer将包含自动执行此任务的算法。尽管Verisk应用程序提供了这一级别的知识,但我们发现级别3是在实践中相当罕见。

  • 等级2:部分信息可用

使用自上而下或自下而上的方法,可能会有部分信息可用。某些类别可能存在已知的特定属性的实体。 Web聚合器就是这种情况,因为它需要在其分类层次结构中为每个节点提供特定的属性。或者,可能有模板可用。模板是可能在多个实体类别中的一个中一起出现的属性的集合。例如,美国地址的模板可能是(数字,街道,城市,州,邮政编码)。请注意,模板只是一个复合类型,即通常一起出现的一组属性。 模板可以由DTA指定为“提示”,或者可以通过机器学习来识别如第4节所述。

  • 等级1:没有可用的知识

在这种情况下,类的结构信息和自下而上的整合都是不知道的。这种细节可能是真实的,例如,关于随机的HTML表格,这些表格是从网上抓取的。这就是像Web表格这样的系统的世界。虽然这是生物学应用的知识水平,但我们认为在实践中也是不常见的。

3.3 其他信息

此外,在许多领域,还有标准字典,这些字典应该被Data Tamer使用。字典是一些数据类型的数据值列表,可以填充某些数据源中的属性。 例如,美国有50个州,美国约有3万个城市等。 字典用于指定这些属性的名称和合法值。 有这么多的词典DTA希望指定。

字典被推广到权威的表格。 这些是已知具有正确信息的辅助数据表。 例如,(城市名称,机场名称,机场代码)列表可以是具有三列的权威表格。

此外,数据驯服容纳的同义词表单XXX是YYY。 例如,“工资”是“工资”或“镇“是一个”城市“。 在未来的版本中,我们可以扩展这个能力转化为更一般的本体论。

3.4 管理控制台和Data Tamer操作

网站,类别,模板,词典,权威表格,同义词可以通过一个DATA管理控制台,这是一个相当传统的图形用户界面。

这个控制台的一部分专门用于允许DTA指定Data Tamer执行的操作。 这些行动是:

  • 获取新的数据源,并将传入的数据存储到Postgres数据库中。在当前版本的Data Tamer,这个数据库存在于一个节点上;然而,把这个数据库分割到的多个节点和并行化要描述的算法是非常简单的。
  • 在数据源上执行属性标识,如4.1节所述。
  • 在数据源上执行实体合并,如第4.2节所述。

在属性标识或实体合并过程中的任何时候,Data Tamer都可以请求DE的人员帮助,如4.3节所述。 最后,如第4.4节所述,任何人都可以使用Data Tamer特定接口直观地显示任何数据集。我们可以切换到更复杂的Data Tamer可视化系统[1],从而在那个系统里支持可能的手动转换这个问题将在4.4节中进一步讨论。

在任何时候,DTA可以要求在所有站点上重新进行属性标识和/或实体合并。显然,由于Data Tamer系统中存在更多的站点,这是一个耗时的任务。 但是,更好的决定可能是基于存在的更大量的信息而可用。 因此,如果上面没有指定source-i或source-j,则Data Tamer应该运行要在所有数据源上描述的算法。

最后,Data Tamer保留了所有执行操作的历史记录,DTA可以将策展过程向后回溯到任何过去的历史点,这是通过使用不覆盖更新策略来实现的。

3.5 训练数

在我们与有企业数据管理问题的人的对话中,我们看到了Data Tamer使用两种不同的情况。 第一个适用于知识水平最低或没有先进知识的情况(即第一级和第二级以上)。 在这种情况下,Data Tamer只是最开始使用。最初是非常愚蠢的,必须定期向人们寻求帮助。 后来它变得越来越聪明,所以要求的次数越来越少。而且,由于增加了知识的好处,往往在已处理的网站上返回并运行属性标识和实体解析是很有意义的,可能更好地做出决定。 增加的知识。 因此,训练数据是由Data Tamer的众包组件随着时间的推移而积累起来。

第二个场景涉及更多信息已知的应用程序(上面的第3级)。 在这种情况下,我们观察到现实世界的应用程序通常有可用的培训数据。 具体而言,它们具有“已知重复”的实体和/或属性的集合。换句话说,它们具有已知匹配的本地标识符对的集合。不能保证他们找到了所有的匹配规则。因此,他们提供了一个匹配的属性名称或实体的集合,没有误报。我们已经注意到,提供虚假肯定的危险性在真实问题上很高,所以真实世界的DTA非常谨慎。 因此,他们提供手工收集已知的匹配。

在第一种情况下,我们开始运行Data Tamer系统,适当的时候请求人帮忙。 在第二情景,我们利用已知的重复作为初始训练数据。 我们在第4.2节中提供更多细节。

3.6 数据源更新

最后,一些数据源可能是动态的,并不断更新。在这种情况下,Data Tamer可以创建之前数据源-k的新快照。在这种情况下重新处理数据源是有意义的,因为信息已经改变了。在版本1中,没有接受实时数据反馈的概念。 这样的扩展留给将来的版本。

4. Data Tamer

Data Tamer的架构图如图1所示。图中显示的是管理控制台和规格集成的组件,实体合并,DE 支持和人的转变。 这四个子系统在本节中描述。在这里大部分描述的功能目前能够正常运行运作。

4.1 数据格集成

模式集成中的基本内部循环是从数据源中提取一个属性Ai,并以成对的方式将其与其他属性的集合进行比较。 对于每一对,我们都可以使用属性名称和值的集合。 我们的方法是使用一组算法,我们称为专家,每个算法返回0到1之间的分数。之后,将这些分数与一组权重进行合并以产生合成值。 Data Tamer配备了以下四位内置专家,可以通过简单的API插入其他专家。

  • Expert-1 使用三角余弦相似度对属性名进行模糊字符串比较。
  • Expert-2 将一列数据视为一个文档,用一个标准的全文分析器标记其值。然后,测量列之间的TF-IDF余弦相似度。
  • Expert-3 这位专家使用一种称为最小描述长度(MDL)的方法,使用类似于Jaccard相似性的度量来比较两个属性。 这个度量计算了两列数据交集的大小与它们并集大小的比值。 由于它依赖于属性之间的精确匹配值,因此非常适合分类和有限域数据。
  • Expert-4 最终专家计算韦尔奇的一对包含数值的列的t检验。 给定列的均值和方差,t检验给出列从相同分布得出的概率。

要比较的属性取决于Data Tamer可用的信息级别,如下一节所述。 此外,DTA可以为建议的映射设置一个阈值,从而可以自动采用高度的信任建议,而低的信任映射进入人员审查队列。

4.1.1 属性映射

Data Tamer将要考虑的属性映射取决于手头有哪些可用于处理问题的信息,如3.2节所述。 根据正在检查的级别,使用不同的策略。

  • level3 在这种情况下,Data Tamer知道全局模式,即所有类的实体及其相关的属性。有时,Data Tamer被告知传入数据源所属的类。 在这种情况下,它只能匹配两个属性的集合。 运行规格集成组件的结果是传入属性与全局模式中类的元素的配对。 如果 Data Tamer不确定配对,即匹配得分小于阈值,那么如4.3节所述涉及人。 在其他情况下,必须确定传入实体所属的类别。 在这种情况下,Data Tamer在所有类上运行上述算法,并计算属性的总计匹配分数。 然后选择最好的一个。当然,如果没有足够高的分数,或者如果有两个分数相似的类,那么人就参与决策过程。 应该注意每个传入的属性 该算法到目前为止所看到的属性数量是线性的。 因此,总的复杂度是二次的。 本节稍后讨论可伸缩性问题。
  • level2在这种情况下,Data Tamer可以确定属性的一个子集。 如果是这样,则运行上述算法。如果属性不匹配,则将其添加到模式中 DTA指定的类或算法标识的类。未来的数据源可以匹配更大的属性集合。 复杂性与之相同 3级。 如果模板可用,则考虑任何模板中的所有属性的集合S,以及任何字典名称和同义词.Data Tamer使用两遍算法。 首先,它将所有传入的属性与S的成员进行匹配,只保留得分最高的一个。 在第二遍中,如果其他属性与所选模板中的其他属性相匹配,则将传入属性的分数向上调整。然后,如果阈值高于阈值,则保持匹配。 此外,Data Tamer还会监视传入站点是否收集通常一起出现的属性。 如果是这样,它会自动将集合定义为新模板,并将新成员添加到模板字典中。
  • level1每个传入的属性都与以前看到的所有属性,同义词和词典进行比较。 对于所有级别来说,最坏情况的复杂度是属性总数的二次方。 第一个专家在成对的属性上运行起来非常便宜,因为它不会查看数据。另外三个专家必须检查数据列,而且要昂贵得多。 到目前为止,我们的属性识别算法的运行时间并不是一个惊人的,因为它们运行是“离线”,我们的第一个改进是将它们并行在一个计算机网络的多个节点上,方法是复制Postgres数据库,然后”分割“传入的属性。 这将产生几个数量级的改善。 之后,进一步的运行时间改进将需要两步处理,其中一个属性的子集具有便宜的第一通道和更昂贵的第二通道。 这种两步法将引入额外的专家,其运行时间与属性数据集的大小无关。现在的第一个专家比较属性名称就是一个例子。其他专家将根据属性元数据或从属性数据派生的样本进行比较。可用的元数据包括类型和描述字符串等数据集中的显式字段。尽管明确的元数据可能不可用,但总是可以计算有用的属性属性并将其存储在统计表中。有用的衍生元数据包括计数以及不同值的直方图,推断的数据类型等等。这些统计数据对于为其他专家构建样本也非常有用,例如,计算两个属性的最常用k值的Jaccard相似度的专家。这些首先通过的专家将作为高昂的通行证来处理更昂贵的二次通行证,并节省浪费的时间,几乎没有共同之处。

4.2 实体合并

实体合并有效地建模为重复消除。目标是找到足够相似的实体被认为是重复的。这个模块收到一个集合的记录,R1,: ::,Rn,来自一个或多个本地数据来源增量到达。我们假设这个属性 以前已经进行过鉴定。因此,所有记录具有来自一组属性的属性值A1,:::,Am。一般来说,数据可能会很嘈杂和稀疏的。

重复数据删除过程分为多个任务,我们在下面展示。

4.2.1 导训练过

最初,系统对重复数据删除规则了解不多。我们从已知重复和非重复的训练集中学习重复数据删除规则。我们假设重复的元组通常至少有一个具有相似值的属性。我们获得一组元组对,这些元组对可能会被重复呈现给专家用户,如下所示。设Simi表示属性Ai的值的相似性度量。对于每个属性Ai,我们将Simi的范围划分为若干个等宽分类,并且对于每个分类我们选择与属于这个分类的Simi的元组对的样本。然后将获得的对按属性相似性排序,然后呈现给专家用户进行标记。由于所呈现的对按照属性相似度从大到小的顺序排列,因此专家可以选择停止低于某一相似性阈值的标记对,并将剩余的未看见的对声明为不重复。我们用TP表示被标记为重复的一组对,而我们 用TN表示标记为非重复的一组对。

为了增加候选对中发现的重复项的预期数量,我们只考虑在获得候选项(例如标题,地址和电话)时具有相对大量不同值的属性,同时丢弃其他不太显着的属性 例如城市和州)。 原因是非独特属性之间的高度相似性不会增加重复的机会。

培训数据的另一个重要来源是已知的重复数据,可以在数据集中使用,如前所述。另外,Web聚合器还提供了几个手工制定的规则,用于高精度地识别重复数据。 再次,这是已知重复的来源。 我们使用现有的信息作为正面的训练数据(即TP)。 负面训练数据(TN)更容易找到,因为非重复数据非常频繁。 给定随机的一组元组对,专家用户只需要排除任何高度相似的非匹配对,导致负面的训练数据(TN)。

4.2.2 记录分类

记录分为多个类别,每个类别代表一组具有相似非空属性和相似属性值的同质实体。 那么可能会出现这种情况,例如如果西部的滑雪场看起来不像东部的滑雪场。 例如,两类记录中的垂直落差和基础高程显然是不同的。另外,由于强风的关闭可能通常报告为一个类,而不是另一个。记录分类的好处是双重的:首先,通过学习每个类别特定的重复数据删除规则,我们实现更高质量的规则,可以准确地检测到重复的元组。 其次,我们使用元组分类来减少重复检测算法中需要考虑的元组对的数量。 性能增益与当前用于大数据集中实体分辨率的阻塞技术(例如,[7,14])所获得的性能增益类似。

记录的分类可以使用分类器来完成。 在Data Tamer中,分类分两步实现。在第一步中,我们获得一组代表每个类别的代表性特征。 我们通过对可用来源的元组样本进行聚类来获得这些特征。 我们使用基于质心的算法,如k-means ++ [6]。 类别的数量是通过在引导阶段(第4.2.1节)获得的训练数据TP中的重复数据来确定的。

在第二步中,我们将每个元组分配到最近的类别(w.r.t.到一些距离函数,如余弦相似度)。 虽然类似于实现的性能增益中的阻塞,但这种两阶段分类与先前提出的分块算法是基本不同的,通常通过分簇来执行,索引或排序整个数据集是非常昂贵的操作,我们在分类算法中避免这些操作。

新数据集可用时,元组的分类可能会随时间而改变。我们通过添加新类别和/或在需要时合并/拆分现有类别来维护分类。例如,考虑与其他类别相比,给定类别的半径(由类别的代表性特征与类别的成员之间的最大距离测量)变得非常大的情况。 在这种情况下,我们分裂了 类别分为两个或更多个较小的类别。 有效的增量分类是我们目前的研究方向之一。

4.2.3 重复数据规则

重复数据删除规则分为两种类型:(1)属性相似性的截止阈值,它帮助修剪大量的元组对,如4.2.4节所示; 和(2)重复和非重复元组对的属性相似度的概率分布。我们从收集到的训练数据TP(这样本)和TN(负样本)中学习这些规则。 例如,一个规则表明具有相似的“Title”值的两个元组的概率是相似的,因为它们是重复的。 另一个规则表明,在重复项中具有“State”属性的不同值几乎为零。请注意,学习模块将选择忽略一些对学习重复概率无用的属性(例如,由网页聚合器收集的数据中的“用户评分”)。而且,由于它们在语义上是不同的,因此重复数据删除规则区分了缺失的属性值和不相似的属性值,我们分别了解每个事件的概率。

我们使用一个朴素贝叶斯分类器来获得元组对的属性之间相似性的概率。这个分类器聚合了所有属性的条件概率,以获得重复的边际概率(假设条件对属性的独立性)。

4.2.4 相似度

两个数据集之间的相似性连接的目标是检索所有重复的元组对。一旦获得了重复数据删除规则,如4.2.3节所示,我们执行相似性连接如下。我们获得所有候选元组对,其中每一对属于同一类别,并且至少一个属性具有超过其学习阈值的相似度。然后,我们计算候选对的属性相似度,并根据4.2.3节中学到的分类器使用这些相似性来识别重复记录。相似性连接是逐步执行的,以适应不断添加的新数据源。对于每个新源,我们首先对新源中的元组进行分类,对新元组执行自相似性连接,并在新源中的元组和新元组中进行元组之间的相似性连接。当增加新的训练数据是因为要求人类帮助解决不明确的情况时,我们更新重复数据删除规则,有效识别哪些元组受到这些变化的影响并重新分类。

4.2.5 记录聚合和合

一旦我们获得被认为是重复的元组对的列表,我们需要获得元组的聚类,使得每个聚类代表不同的真实世界实体。对元组进行聚类可以确保最终的重复数据删除结果是可传递的(否则,重复数据删除结果将不一致,例如将(t1; t2)和(t2; t3)声明为重复对,而声明(t1; t3)是不重复的。 我们依赖于[13]中引入的相关聚类算法的修改版本。给定一个相似度图,其节点表示元组,并且其边连接重复的元组对,我们执行如下聚类。该算法以所有单个聚类开始,并且重复合并随机选择的具有高于某个阈值的“连接强度”的聚类。我们将两个聚类之间的连接强度量化为跨越两个聚类的边缘的数量 即,两个群集的笛卡尔乘积)。当没有更多的集群可以被合并时,该算法终止。

当基础相似性图变化时(即,新的边和/或现有的边被删除),我们更新聚类如下。 我们确定图中所有与任何修改边相关的节点。 包含任何这些节点的簇被分割成单个簇。然后,我们在新的单个簇上重新应用相同的合并操作。

每个群集中的元组使用用户定义的规则进行整合。 首先丢弃空值,然后使用标准聚合方法(如Most-Frequent,Average,Median和Longest-String)来组合每个集群中元组的属性值。

4.3人机界面

在属性识别阶段和实体整合阶段,DTA可以要求DE(领域专家)提供输入。在属性标识的情况下,任务是确定两个属性是否相同。 在实体解决的情况下,任务是确定两个实体是否重复。 Data Tamer处理的两种情况将在后面两节中介绍

4.3.1 模式

如果需要人工干预的任务很少,或者只有几个DE,那么DTA可以手动将人工任务分配给DE。他这样做是通过使用一系列规则来规定应该发给特定个人的问题类别。或者,他可以手动分配任务。 在这两种情况下,人工请求的路由由DTA以最少的基础设施完成。

但是,如果问题很多,或者由于需要时间的差异,或者如果有很多DE来处理大量的问题,那么就应该采用更复杂的人群采购模式。 Data Tamer实现了下一节讨论的模型。

4.3.2 众包模式

大规模的数据管理可能需要招募更多专业知识较少的领域专家(DE)来帮助解决工作量。这些 DE可以被要求完成“简单”的任务,或者可以被众包来产生更高的正确性的结果,而不是任何一个人都可以假设的结果。 但是,大量多样化的DE人口需要解决以下几个问题:

  • 响应质量的确定。 当一项需要人工干预的任务被转交给一位专家时,可以认为所得出的答案是准确的。 但是一个由多个DE来解决的任务 可变的专业知识可能会导致质量变化的多重反应。 因此,由一组DE返回的一组不同的响应应该伴随着一个概率分布,它反映了每个响应中的总体置信度是正确的。
  • DE领域专业知识的确定。 对任务的每一个不同的反应的意见必须是那些给出这个回答的DE的给定任务领域的专业评级的函数。 这对如何表征和确定领域专业知识带来了挑战。
  • 有用和及时的DE响应的动机。 考虑到DE人口的多样性,个人DE的反应和反应会有所不同。 这里的问题在于如何鼓励DE成为优秀的公民来应对任务。
  • DE工作量的管理。 DE不仅具有变量领域的专业知识,而且具有可变的可用性回应任务。 因此,管理工作量是必要的,因为考虑到工作量的限制,使得DEs既没有负担过重,也没有充分利用。

我们已经建立了一个工具(Data Tamer Exchange或DTX),它作为一个基于市场的专家交换,帮助将需要人力投入的任务与可以提供它的个人或众包的DE相匹配。 DTX假定属性标识或实体解析问题的集合,必须经过验证或驳斥。 对于每个这样的任务,该工具显示一个DTA有多少个DE可用 与任务域相关联的某些特定专家类中的每一个,以及响应的成本和质量将如何根据每个类的多少DE来响应。

DTX的主要特点如下:

  • DE和响应的基于信念的度量。

DTX为每个DE都保留了一个基于信心的专业评估向量 在一组指定的领域中的每一个领域都具有专业知识的程度 由DTA。每个评级是介于0和1之间的值,表示DE对关联域中的任务产生正确响应的概率。DE对特定领域的专业评级是由其他更专业的DE和来自请求应答的DTA在该领域的每个回答所作的评估计算出来的。 使用类似的基于信度的度量来度量响应的质量(即响应正确的概率)。众包产生了一系列响应(TRUE或FALSE),并且使用贝叶斯证据收集(Bayesian Evidence Gathering)从投票选择的响应者的专业评级中收集每个投票的质量评级。更具体地,给出具有专业知识的n个响应者的问题 等级〜E和响应〜R,给定响应b的累积置信度为:

使得B和B是分别表示事件的随机变量,其中响应b分别是正确的和不正确的答案,或者是随机变量(X),使得上面的子产品是正确响应者正确的组合概率(Ri = X),不正确的响应者不正确(Ri != X)。

  • 专家类。

DTX根据DE在该领域的专业知识评级将DEs动态聚类为领域特定的专家类。例如,一个给定领域中最专业的DE可能被分配到专家级别#1的专业评级为0.9或更高。 当一个任务被提交给 DTX,工具通过呈现关于任务领域中的每个专家类别的统计信息,包括DE的数量,每个DE响应的成本(专家评级更高的类别,每个响应更多的类别)以及类别内的DE的最小专业评级。 在这个基础上,一个DTA决定每个级别,他将支付多少(如果有的话)个DE。

  • 对良好公民的经济激励。

DTX假定一个经济模型,由DE获得的回报是相称的与他的专家级。答复付款来自提供完成任务预算的DTA帐户。 系统向DE(与响应相同的速率)和DTA提供对DE响应评价的付款 (他们的工资被加到他们的预算中)。

  • 动态定价来管理工作量。

DTX动态调整每个响应所支付的价格 在每个专业水平,以鼓励选择 未被充分利用的DE和阻止选择 负担过重的DEs。

经济模式有助于解决大规模的两个问题:

1、鉴于可能会审查答复,DEs是激励 提供有用和及时的回应,以获得更高的专业评级,从而获得更高的薪酬。 2、鉴于DTA被分配了一个固定的预算来完成他们所有的任务,他们被激励尽可能少地花费在DE响应上。 通过鼓励DTA根据自己的困难对任务进行分类,并且征求最不专业(因此也是最便宜的)响应具有最低限度可接受的信心的响应,这有助于减轻专家DE的责任。

此外,对于评论的支付, 有助于确保信任评级的准确性 DE的专业知识和回应。

4.4

在任何时候,DTA或DE都可以调用我们的可视化 系统并将本地数据源传递到该系统。 它在屏幕上显示数据源(或源代码示例)。 人可以检查数据源的洞察力。

我们可能会将可视化系统切换到Data Wrangler访问他们的提取,转换和加载(ETL)运营。 这样一个Data Tamer用户可以手动应用Data Wrangler转换并转换数据类型和格式。 在这种情况下,我们可以记住应用转换并将其转换为数据图类型。 如果我们看到未来的数据类型,我们可以申请自动转换。 允许DTA “跟踪”的数据,我们总是采用一个不覆盖更新Postgres数据库中的数据策略。

或者,我们可以实现一个Data Tamer特定的可视化界面。通过这种方式,屏幕组件可以根据数据控制器的需求进行调整。 例如,实体合并系统想要显示可能的匹配簇和模式匹配器想要显示列来自可能匹配感兴趣属性的多个本地数据源。 Data Wrangler中不包含任何功能。

5. 实验验证

我们在网络使用的数据上运行Data Tamer系统在第2节中描述的聚合器。对少于50个人工标记的来源进行适度的培训后,我们的自动系统在90%的时间里成功地识别了正确的属性映射。整体成功取决于个人专家的结果。在80%的时间内,属性名称匹配成功,MDL为65%,模糊值匹配为55%。 由于汇总者的数字列(邮政编码和纬度/经度)很少,T检验专家只提供少于6%的属性的结果,但其结果在65%的案例中是正确的。 专家互相恭维:至少有一位专家为95%的属性确定了正确的映射。

聚合器 Data Tamer
总记录数 146690 146690
重复数据 7668 180445
共同重复数据 5437 5437
所有的重复数据(估计) 182453 182453
准确度 97% 100%
召回率 4% 98.9%

图2:Web聚合器数据实体合并的质量结果

我们使用一套评估我们的实体合并模块的50个数据源。 平均而言,每个数据源都包含 4000条记录,需要160秒才能进行重复数据删除并集成到中央数据库(使用一台机器)。 统计有关发现重复对在50数据源总结在图2中。我们比较了我们的结果到当前重复数据删除找到的重复对网络聚合器使用的算法。 总数数据源中的记录数是146690,Data Tamer报告了180445个重复对,而聚合者的算法只报告了7668个重复对。该聚合者报告的常见对的数量算法和Data Tamer者是5437。

我们假设两个算法均对是真实的重复。另外,我们假定这两个算法都没有报告是真实的非重复的。我们通过要求领域专家检查100对样本来评估剩余对(即一个算法报告的对,而不是另一个)的准确性。根据专家的反馈,90%的网络聚合器报告但是DataTamer 没有报告的是真实的重复,另外,所有的DataTamer 报告的重复,但是网络聚合器没有报告的数据也是真实的重复。因此,汇总者报告的真实重复(估计)数量为5437+(7668-5437)* 0.9 = 7444。报告的真实重复的数量 通过Data Tamer是5437 +(180445-5437)* 1.0 = 180445。数据集中真实重复的总数是5437+ (180445-5437)* 1.0 +(7668-5437)* 0.9 = 182453。Data Tamer的精度为180445/180445 = 100%,聚合器精度为7444/7668 = 97%。Data Tamer的召回率为180445/182453 = 98.9%,而聚合器召回率为7444/182453 = 4%。这些结果清楚地表明,我们的实体合并模块能够显着提高现有重复数据删除算法的召回率,同时保持相同的精确度水平。

我们还在2.2节讨论的生物学问题上运行了模式识别系统。Data Tamer成功映射了86%的属性。最后,我们在Verisk上运行了实体合并模块 医疗索赔数据集。 图3显示了成对记录对在成对相似性上的各种截止阈值的质量。我们将阈值范围[0,1]划分为10个等宽的子范围,并且从每个子范围获得15对的样本。我们依靠领域专家将抽样对分为真实重复和真实非重复。我们计算了每个相似性阈值(图3)的精度,召回率和F1-度量。 为了对这些结果进行透视,我们计算了Verisk使用的当前重复数据删除算法的准确性。 该算法的精度为12%,召回率为30%,F分数为17%。 另一方面,我们的算法在0.8的阈值处归档65%的F分数。

图片 1

图3:Verisk数据实体合并的质量结果

为了评估用户对我们众包交换的接受程度,我们正在对生物学数据进行两步评估之前提到。 该公司计划在他们的整个生物学问题上运行Data Tamer,拥有数百位专家作为他们的群体采购部分。作为第一步,他们想要做一个“空转”,以确保系统正常工作。 因此,他们要求33位领域专家参与系统的测试。 我们使用Data Tamer对其一部分集成问题执行模式映射。 为了验证Data Tamer的映射,我们使用DTX的专家工作者分配算法为33位专家分配了总共236个模式匹配任务。 在每个任务中,用户被要求将Data Tamer的建议匹配标记为True或False,如果是False,则建议替代匹配。 平均而言,每项任务被重复分配给2名专家。 这导致每个用户平均有7个任务分配。

在这个测试中没有给予用户经济激励,测试参与是自愿的。 在我们联系的33位专家中,有18位(54%)登录了系统。 每位登录用户都执行了所分配的任务。 总共,236项任务中有113个任务被完成,64%的任务至少收到一个响应。 自愿回应率低意味着需要通过经济激励对及时的回应给予奖励。完成指定的任务后,我们要求每个参与者以1到3分的来评估系统的可用性。用户给出的平均得分是2.6。

该公司正在在数百个领域专家的帮助下进行全面的系统测试。 我们计划按域分组数据源,然后将这些数据源中的每个用户的数据录入历史记录,来确定适当的初始域专业知识水平。 例如,如果用户是特定域中的数据源的创建者,那么在确定任务的正确答案时,该用户的响应可以比在那个域中没有输入数据的用户的响应更重。 我们期望在不久的将来报告这项研究。

6. 未来增的点

我们在本节讨论的增强功能,在论文的正文中我们指出了各种各样的未来要改进的部分。首先,我们期望并行化所有的Data Tamer算法,让它们可以运行在分裂和/或复制Postgres数据库或针对其中一个并行SQL DBMS。 鉴于许多算法都是通过SQL实现或用户自定义功能,这个扩展很简单。

格式集成模块可能需要加速通过使其成为如前所述的两步算法。 另外,我们还没有有效地考虑机制重做格式集成。由于我们的格式集成算法本质上是顺序敏感的,因此完全有可能在不同的结果下观察到不同的结果网站排序,因为这样一个有效的重做将是必需的特征。

我们的实体整合方案需要增量化,因此所有的子任务都可以在每个新的数据源被整合时和/或添加新的训练数据时被有效地运行。 而且,这个资源密集型模块的并行化将是特别理想的。

到目前为止,Data Tamer中唯一的数据清理操作是在实体合并系统中。 每当有多个记录对应一个实体时,我们都可以自动或在人工协助下生成一个干净的结果。虽然这是一项有价值的服务,但我们需要实施一个特定的清洁组件。 不幸的是,数据清理往往依靠异常值检测或清理的集合规则。 离群值不一定是错误;例如-99是通常用于指示数据丢失。 因此,找到一个在这种情况下,异常值相当于找到缺失值。另外,大多数清洁规则是非常复杂的,如果他们是有用。虽然很容易陈述年龄和薪水必须是非负面的,要说明这一点要困难得多。如果是冬天,靠近窗户的温度应该低于靠近散热孔的温度。 我们期望在不久的将来能够在这个组件上开展工作,并以用户在实践中实际发挥作用为指导。

同样,我们还没有系统地处理数据转换,例如转换本地数据相同的表示法,转换单位或将属性转换为通用含义(例如,不含销售税的价格)。我们的方法是维护Data Tamer数据类型的图表。每当用户练习可视化系统进行转换时,我们计划在图形中将其记为弧。 显然,用户应该能够用相应的代码添加弧来实现转换。 这个图可以用来在可视化引擎中建议转换。

7. 结论

本文介绍了Data Tamer的主要特点,即规格集成组件、实体整合组件、组织领域专家的众包模块及可视化组件。 将来,我们将添加更多的模块来执行数据清理和重复转换。

该系统已被证明对三个企业有价值。 目前,代码已被三家公司采用。

8. 参考资料

[1] http://vis.stanford.edu/wrangler/.
[2] http://www.compositesw.com/solutions/datafederation/.
[3] http://www.ibm.com/software/data/integration/.
[4] http://www.informatica.com/etl/.
[5] http://www.talend.com.
[6] D. Arthur and S. Vassilvitskii. k-means++: the advantages of careful seeding. In SODA, pages 1027–1035, 2007.
[7] R. Baxter, P. Christen, and T. Churches. A comparison of fast blocking methods for record linkage. ACM SIGKDD, 3:25–27, 2003.
[8] M. J. Cafarella, A. Y. Halevy, D. Z. Wang, E. Wu, and Y. Zhang. Webtables: exploring the power of tables on the web. PVLDB, 1(1):538–549, 2008.
[9] S. Chaudhuri, V. Ganti, and R. Motwani. Robust identification of fuzzy duplicates. In ICDE, pages 865–876, 2005.
[10] L. Chiticariu, M. A. Hern´andez, P. G. Kolaitis, and L. Popa. Semi-automatic schema integration in clio. In VLDB, pages 1326–1329, 2007.
[11] P. Christen and T. Churches. Febrl. freely extensible biomedical record linkage, http://datamining.anu.edu.au/projects.
[12] A. K. Elmagarmid, P. G. Ipeirotis, and V. S. Verykios. Duplicate record detection: A survey. IEEE Trans. Knowl. Data Eng., 19(1), 2007.
[13] C. Mathieu, O. Sankur, and W. Schudy. Online correlation clustering. In STACS, pages 573–584, 2010.
[14] A. McCallum, K. Nigam, and L. H. Ungar. Efficient clustering of high-dimensional data sets with application to reference matching. In KDD, pages 169–178, 2000.
[15] T. M. Mitchell. Machine learning. McGraw Hill series in computer science. McGraw-Hill, 1997.
[16] E. Rahm and P. A. Bernstein. A survey of approaches to automatic schema matching. VLDB J., 10(4):334–350, 2001.
[17] V. Raman and J. M. Hellerstein. Potter’s wheel: An interactive data cleaning system. In VLDB, pages 381–390, 2001.
  • Jan 12 / 2018
  • 0
Data, Tech

锐眼洞察 | 如何用机器学习模型预测App用户流失?(翻译)

作者:Lisa Orr

原文:Predicting Mobile App User Churn: Training & Scaling Our Machine Learning Model

译者:TalkingData Frank Zhang

本译文禁止商用,转载请注明作者与来源!

随着获取 App 新用户的成本飞涨,保留已安装用户是最大化获客成本和用户生命周期价值的关键。Urban Airship 的数据科学小组去年花费了一年时间来开发一种方法识别和定位可能停止使用您的应用的用户。我们称之为预测流失。

在这里,我提供了基于数十亿事件的可扩展机器学习预测模型建立过程的深入见解,并介绍这些预测能力如何带来对用户行为的新洞察,如何为新的触达策略提供动力,如何影响用户留存。

开发机器学习模型

流失预测是一个简单的分类问题 ; 及时回顾用户活动,检查一段时间后谁保持活跃状态,然后提出一个模型,将活跃用户和不活跃用户分开。借助于大量的数据,我们试图寻找用户可能继续打开应用程序的最佳指标是什么?

首先,我们可以查看用户的日常使用活动。用户打开应用程序的频率如何?他们最近什么时候打开的?如果我们试图预测谁会在不久的将来打开应用,一个好的指标可能是用户是否已经打开应用程序。接收推送通知的影响呢?选择接收它们是影响用户 App 活动的首要因素吗?

回顾 60 天的用户数据,我们在累积窗口中汇总了消息发送和应用打开信息,以及一些附加信息,如设备平台和 App ID。然后,我们根据用户在未来 30 天内是否打开应用,将每个用户标记为已流失或未流失。利用为每个用户汇总的特征数据,我们使用梯度提升树机器学习算法来训练模型。

我们对流失预测进行了六个月的历史研究,对数十种特征(即可观察的用户和应用行为)进行了模型训练。我们的目标是在预测客户流失方面获得更高的准确性,并洞察影响客户流失的因素。通过研究模型,对于哪些特征影响最大,我们发现了一些有趣的模式:

  • 打开活动。到目前为止,未来是否活动的最大预测因素是从最近一次打开以来的持续时间。这是有道理的,因为这是与我们试图预测的时间方向相反的方向。在最近的时间窗口内打开的次数和最近一次打开距今的时间远近程度在预测谁将要流失方面都起着重要作用。

  • 发送活动。另一个有趣的发现是,接收推送通知对用户保留有积极影响。这又是有道理的,如果您选择接收推送通知,则表明您对该应用表现出积极的兴趣,并且表明了发现其更多价值的开放性。

    来自 Urban Airship 的数据科学和营销团队最近的一项研究说明了这一点。收到至少一个推送通知的用户与没有收到推送消息的用户相比,留存率高出 66%。我们还发现收到的通知数量和保留的天数之间的关系,用户收到的消息越多,他们继续使用应用的时间越长。与打开次数一样,通知发送的距今的时间远近和频率在模拟客户流失活动中起到了作用。

扩展模型

现在我们创建了一个可工作模型,下一步就是测试它扩展到数千个应用和数十亿用户的能力。添加更多的应用很快暴露出一个弱点:将数据从 csv(从 MapReduce 作业的输出创建我们的特征数据)重新处理为稀疏矩阵(提升树模型所需的格式)。

由于内存问题,此处理步骤导致作业失败。增加计算资源可以暂时解决问题,但是随着我们添加更多的应用,我们需要重新思考我们的策略。在开发阶段写入 csv 非常有用,因为我们可以仔细检查我们的工作。但除了人类可读,使用中间格式没有真正的好处。

我们直接在 MapReduce 作业内将特征数据重新格式化为稀疏矩阵。到目前为止,通过在 MapReduce 阶段添加更多的机器或者增加建模阶段使用的单机的大小,解决了更多的内存压力。随着格式的变化,我们能够同时训练数千个应用的模型。

模型生产

一旦我们有了一个可扩展的工作模型,下一步就是搞清楚如何最好地向客户提供这些预测。对于模型中的每个用户,我们可以得到一个打分为 0 到 1 的流失概率。分数越高,用户越可能会流失。反之,得分越低,用户越可能会留存。

如果你看一下流失概率的分布,就会发现你的应用的超级粉丝(肯定会回来的)和你的应用将要流失的用户。而在这中间,还有一些混杂的个体,对于他们将要走向哪个方面不太确定。

模型的概念使我们将用户分成三组:高风险组、中风险组和低风险组。通过预测结果来进行推送,我们的客户能够根据他们触达策略的激进程度来调整他们的受众细分。

例如,如果您试图重新接触风险较高的用户,那么如果只包括高风险受众,则可以扩大提供的奖励,或者如果同时包含高风险和中等风险受众,则可以将其缩小。

一旦用户被分类为高风险、中风险或低风险,客户可以通过实时移动数据流立即获取数据,以便在其他系统中进行分析或采取行动,DashBorad 可查看近五周的表现,通过可视化 展示为了将用户从高风险状态转移到低风险状态所做的努力效果如何。

在实际环境中预测

为了说明预测流失如何影响触达策略(反之亦然),这里有几个匿名的 Urban Airship 客户和他们各自的流失评分分布:

 

 

 

以上可视化表示 Urban Airship 三个示例应用的用户流失预测分数直方图。每个条形表示可能流失分数落在指定分数范围内的用户的百分比。颜色代表风险类别:绿色是低风险,黄色是中等风险,红色是高风险。预测于 2017 年 2 月 3 日进行。

比较这些应用,我们可以看到流失预测的用户分布。与大多数用户处于高风险组的应用 B 相比,应用 A 中大多数用户处于低风险组。对于应用 C,我们看到一个双峰分布,其中一大群用户处于高风险组,另一大群用户处于低风险组。

流失预测与应用触达策略有何关系?这三个应用都有大量的受众群体(超过 300 万个独立设备),且都使用消息推送来吸引用户。

但是,这些应用的触达方式存在很大差异。应用 A(低风险应用)有一个非常复杂的触达策略,广泛使用高级功能(即标签、生命周期列表、应用程序内通知、消息中心等),针对受众分群推送,并获得对这些消息的高度参与(通过直接或在影响下打开应用)。

另一方面,应用 B(高风险应用)在进行简单的受众细分后使用非常基本的消息推送策略,偶尔传达给有限的受众,并且几乎没有受众参与。

应用 C(流失分数存在双峰分布的应用)使用了中间策略。他们利用一些高级的参与度特征,如别名、徽章和深度链接,几乎只发送广播信息,推送了这些信息后他们观察到了大量的受众响应。

通过比较流失预测和应用触达策略,我们的客户可以找出哪些地方需要改进,这些改进带来哪些变化,并且可以比较流失分数在每周的变化情况。

对于应用程序 B,我们建议针对更多的受众群体,更频繁地进行消息推送,并将他们的消息推送策略的使用扩展到更多的方式(如应用内消息推送和消息中心), 以及通过标签和指定用户提高触达精准度。

对于应用 C,我们建议不再使用广播推送,转而明确针对高风险的受众。

下一步是什么?

预测性流失使企业能够在正确的时间,正确的渠道将正确的内容送达用户,将用户从要流失的转变为留存的。但这只是数据科学和机器学习能力的开始。不久以后,使用数据自动发送消息通知并改善用户触达效果将是公司的标配。

 

  • Jan 12 / 2018
  • 0
Data, Tech

锐眼洞察 | 零售业中的数据挖掘问题 ①(翻译)

作者:Ilya Katsov

原文:DATA MINING PROBLEMS IN RETAIL

译者:TalkingData首席数据科学家 张夏天

本译文禁止商用,转载请注明作者与来源!

零售是数据科学和数据挖掘重要的商业应用领域之一。零售领域有着丰富的数据和大量的优化问题,如优化价格、折扣、推荐、以及库存水平等可以用数据分析优化的问题。

全渠道零售,即在所有线上和线下渠道整合营销、客户关系管理,以及库存管理的崛起产生了大量的关联数据,大大增强了数据驱动型决策的重要性和能力。

尽管已经有许多关于数据挖掘在营销和客户关系管理方面的书,如 [BE11, AS14, PR13 etc.],但绝大多数书的结构更像是数据科学家手册,专注在算法和方法论,并且假设人的决策是处于将分析结果到业务执行上的中心位置。

在这篇文章中我们试图采用更加严谨的方法和系统化的视角来探讨基于数据分析的经济学模型和目标函数如何使得决策更加自动化。在这篇文章里, 我们将描述一个假想的收入管理平台,这一平台基于零售商的数据并控制零售策略的很多方面,如价格、营销和仓储。

导出图片Fri Jan 12 2018 10_56_59 GMT+0800 (CST)

我们专注在将经济学框架和数据挖掘方法的组合有以下两个主要的原因:

  • 我们可以从经济学教科书上找到上百个与零售有关的经济学模型,因为关于市场、折扣、竞争等问题在上个世纪得到了深入的研究。然而,许多模型都是高度参数化的(即严格的由带有有限参数的公式所定义)并且不能足够灵活而精确地对现实世界的问题建模。但数据挖掘提供了很多非参数建模技术,可以帮助创建灵活而实用的模型。在最近十年里,也有许多成功的平衡抽象模型和机器学习技术的文章和案例研究已经发表。
  • 快速的数据循环使得在现代零售业中可以使用相对简单的模型做出更加准确的预测,因为小规模增量式的预测一般而言要比大决策更加容易。

    例如,因为对于一个新的颠覆性产品在消费者心中的感知价值是未知的,要计算它的最优价格是很困难的。但是根据需求和库存水平实时调整促销价格则是相对容易的。有一些成功的商业解决方案对价格优化就几乎丢弃了经济学模型,简单的根据销售闭环的反馈情况来决定价格的上升和下降 [JL11]。

以上两点意味着在零售业自动化决策和动态优化具有很高的潜力,因此我们专注于研究这个领域。本文很大篇幅用于综述零售业者和研究人员发表的成果,这些成果都是他们在综合应用抽象经济学模型和数据挖掘方法构建实际的决策和优化系统中产生的。

特别的,本文主要受到 3 个案例研究的启发,分别出自 Albert Heijn [KOK07], 新西兰最大的连锁超市,Zara [CA12], 一家国际服装零售商,以及 RueLaLa [JH14], 一家创新在线时尚零售商。我们同样综合了来自 Amazon、Netflix、LinkedIn 和许多独立研究者和商业项目的结果。同时,我们避免使用那些缺乏实践支持的学术结果。

我们的研究主要着眼于与收入管理相关的优化问题,包括营销和定价等问题。更加特殊的数据挖掘应用,如供应链优化和欺诈检测, 数据挖掘过程实现的细节(如模型质量的验证)则不在这我们研究的范畴内。

本文剩余部分组织如下:

  • 我们首先引入一个简单的框架将零售商的行为,利润和数据联系在一起。此框架将作为更统一的方式来描述分析问题。
  • 本文的主体部分探讨了一系列与零售业相关的优化问题。我们将在不同章节逐个介绍这些问题。每个章节会简要描述问题,并提供一组业务案例和应用,以及详细介绍如何将问题分解成经济学模型和数据挖掘任务,使得可以通过数值优化方法来解决业务问题。
  • 然后,我们会有一个章节专门讨论这些方法在实际应用中的可期的经济收益。
  • 最后,总结部分会对这些问题之间的依赖关系进行讨论,从而阐明一般的原则和关键点。

优化框架

本文介绍了 6 个主要与营销和定价相关的优化问题,这些问题都能够应用数据挖掘技术来解决。尽管这些问题非常不同,但我们尝试建立了一般性的框架来帮助设计求解所需的优化和数据挖掘任务。

该框架的基本思想是用一个经济指标,例如毛利率作为优化目标,并将这一目标作为零售商行为(如营销活动或者分类调整)的函数。

同时计量经济学目标也是数据的一个函数,即计量经济模型应该被零售商的特性参数化,从而在其输出中产生一个数值,如毛利率。

例如,某零售商在计划一个邮件营销活动。可行的行动空间可被定义为一组对于每个客户发送/不发送决策集合,而活动的毛利率则决定于营销动作(有些人会接受激励而另一些人不会)以及给定客户的期望收入和邮件成本。这一方法可以更形式化的由如下公式表达:

WX20180112-105753

此公式里 G 是可用于分析的数据,是零售业者行为和决策空间, 是计量经济模型函数,其参数是 d 和 A,而 A是最优策略。这一框架由文献 [JK98] 整理提出。

模型 G 的设计十分依赖于问题本身。在大部分情况下,对毛利率建模和优化都是合理的。但是,有些情况下其他的目标也是有可能的,就如下一章探讨的响应建模。同时需要注意的是优化问题(1)也跟时间有关系,因为环境会随着如新产品的上架、竞争对手的行动等因素变化,零售业者自己的行为也会产生影响。

数据挖掘在这一优化问题中的角色是非常重要的,因为计量模型 G 通常都比较复杂且必须基于数据通过回归等数据挖掘技术学习确定。

在某些情况下因为复杂性太高(如用户的行为很难精确预测)或者因为无法将现有数据做外推(如对于完全新的服务),模型是无法完全确定的。这时,可以用 A/B 测试和问卷调查来获得额外的数据来改进模型的精度。

问题 1: 响应建模

问题描述

在广告或者特价优惠活动中,需要决定将一些资源投放给一些客户。而这些资源都是有成本的,如邮寄印制商品的目录的资金成本,或者一些负面效应(如使得用户取消邮通知订阅)。

同时, 这些资源将会影响用户的决策,如促使他们更多地消费或者购买更高价值的产品。其目标是找到一组最靠谱的候选客户,对他们投入资源后能够使得业绩最大化。

投入的资源可以是同质的(如所有参加的客户都得到同样的激励)也可以是个性化的。在后一种情况下,零售业者将对每个不同的客户提供不同的激励如不同产品的优惠券来最大化总体的收益目标。

应用

响应建模被广泛的应用在营销和客户关系管理上:

  • 确定特定的折扣、优惠券和特价,需要识别出客户对这些激励的反应。
  • 有这对性的邮件促销、活动和赠品(如 4S 店提供的免费太阳眼镜)通常需要识别出最优价值的客户来降低营销费用。
  • 客户挽留计划需要识别出那些可能会离开但可以通过激励来改变主意的客户。例如,电商可以向那些放弃购物车或者离开搜索会话的客户发送特价优惠。
  • 在线目录和搜索结果可以根据客户对某些商品的的喜好来重新调整。
  • 响应建模帮助优化了电邮促销来避免不必要的垃圾邮件,这些垃圾邮件可能会让客户取消邮件订阅。

求解

基于以上的讨论,我们现在可以认识到这个问题就是资源分配的优化问题,而优化问题由一个目标函数驱动。一个最基本的方法是根据每个客户的响应概率和期望净价值来对促销活动的整体利润建模。

WX20180112-105807

这里 Pr(R│u;I) 是给定客户 u 对激励 I 的响应概率,g(u|R)) 是这个客户响应的激励的净价值,而 c 则是激励的成本。公式中第一项是响应从响应用户获得的净收益,而第二项则是对应在没有响应的客户上的期望损失。目标是通过找到一组最有可能响应活动并能贡献高利润的客户子集来最大化 G。因为公式 (1.1) 可以约简如下:

WX20180112-105817

这里 E{g|u;I} 表示对给定客户在假定他会接受激励的情况下的毛利率的数学期望,而客户的选择标准则要符合以下条件:

WX20180112-105825

同时,最优的客户子集 U 可以定义为最大化毛利率的子集:

WX20180112-105833

我们也可以以随机分配激励为基准的净值最大化。为此,我们假设参与该次营销活动的客户数固定为 |U|。首先,我们将公式 (1.2) 展开,显示的包括对于随机选取的 |U| 个客户的营销活动的期望毛利率。

WX20180112-105843

此处 E{g|I} 是所有客户上的平均净价值。这一平均净价值是常数,因此在 |U| 确定的情况下在目标函数中可以被略去。因此,公式(1.2)在固定 的情况下同样可以得到(1.3):

WX20180112-105852

然而,文献 [VL02] 提出这一模型存在一定的缺陷,因为该模型偏向于易于接受激励的客户,而没有考虑那些有没有激烈都会贡献同样利润的的客户。为解决这一 缺陷,我们需要根据以下四种情况来计算客户集合 U 的毛利率:

  • G1 – select U according to the equation (1.2) and send incentives to everyone in
  • G2 – select U randomly and send incentives to everyone in
  • G3 – select U according to the equation (1.2) but do not send incentives at all
  • G4 – select U randomly but do not send incentives at all
  • G1 – 根据公式(1.2)选择 U 并向中所有客户发送激励
  • G2 – 随机选择 U 并向 U 中所有客户发送激励
  • G3 – 根据公式(1.2)选择 U 但是不发送任何激励
  • G4 – 随机选择 U 但是不发送任何激励

公式(1.2)是最大化 之差即相较于随机投放的提升度。另一种方法是优化,这一目标函数不仅仅度量相较于随机投放的提升度同时还考虑去除掉在同样的客户集合上不做任何激励的提升度。在此情况下,公式(1.2)变为如下形式:

WX20180112-105900

此处最后一项对应的是未被激励的客户的期望净价值。这一方法被称为差分响应分析或者提升度建模由文献 [BE09] 提出。

值得注意的是,公式(1.2)和(1.4)都不是通过最大化营销费用来优化的。考虑如下情况,每个响应的用户可以贡献 100 美元的净利润,而激励费用为 1 美元。如果一个客户组有 100 万客户,其中有 0.5% 的潜在响应者,则花费最大的营销活动是对每个客户都做触达则最终将损失 50 万美元(总的响应者贡献的 50 万美元净价值减去活动费用 100 万美元)。

公式(1.4)对于各种类型的价格折扣特别重要(优惠券、临时价格折扣、特价)。考虑如下问题:“一个零售商应该向每天都买苹果的人提供苹果优惠券吗?” 根据公式(1.2),回答是肯定的。因为这个人很有可能会使用优惠券。

然而,更可能的是这个客户用更低的价格购买了同样数量的苹果,根本上这会降低零售商的利润。公式(1.4)考虑了默认的客户行为从而消除了这一问题。我们在下一节将继续讨论价格区分问题因为这一是个复杂的问题远超了公式(1.4)范畴。

公式(1.2)和(1.4)中净收入的数学期望能够基于过去客户对激励是否接受的历史数据用分类或者回归模型来确定。这一问题可能是非常有挑战性的,特别是当需要评估的激励与过往出现过的都存在某种程度上的差异。

在这种情况下,全规模的活动上线之前需要在一个客户测试组上进行测试。另外,对于零售业者而言毛利率并非唯一的关键指标。在公式(1.2)和(1.4)中使用的毛利率度量关心的是第一次付款后即时的汇报,从客户关系管理的角度看这是非常简单的视角。

零售业者还会关心其他不同的度量,度量上的多元性是如此巨大以至于有一门专门研究这个问题的经济学分支 – 倾向性建模[SG09, LE13] – 这一学科发展了不同的模型来预测用户未来的行为。最重要的倾向性模型包括:

  • 生命价值预测。生命价值模型是估计一个客户在其生命周期内可以贡献的收入或者利润总额。这一指标对于那些目标为获取新客的营销活动而言是很重要的。

  • 钱包份额预测。钱包份额模型用来估计用户对于某些类型商品,如杂货或者服饰,在某一零售商及其在各竞争对手那花钱的比例。这一度量能够揭示哪些客户具有贡献高收入的潜力,因为这一模型能够用在忠诚计划和提升使用的营销活动中。

  • 类型扩展倾向。该模型估计首次购买某一类型的商品后,从休闲产品转换到奢侈品的可能性。这一模型能够帮助设计目的是获得使用扩展的活动。

  • 流失倾向。这一模型估计客户从给定零售商流失并转换到竞争对手的可能性。如果客户具有较高的流失倾向则可以定向进行挽留活动。例如,一个零售商可以识别出那些放弃了在线购物车或者退出了搜索会话但是提供一定折扣或者赠品后会改变主意的客户。

  • 购物习惯改变倾向。每个客户的购物习惯最终确定了其对一个零售商的价值,即客户的购买频率、购买什么产品、购买什么类型的产品等等。这些习惯通常是稳定的,一旦零售商改变一个客户的分层,这个分层将会持续。

因此,零售业者通常对找到那些对改变习惯比较开放的客户感兴趣, 如那些从一个城市迁移到另一个城市的人群, 从学校毕业的学生, 刚刚结婚的人群等等。一个典型的例子是预测客户是否在怀孕早期 [DG12] 因为新生命的诞生会显著的改变客户的购物行为。

以上模型都能够嵌入类似公式(1.4)的公式来代替毛利率目标。我们在后面的小节中将针对讨价格差异化的情况下对折扣的响应倾向建模的情况仔细探讨倾向性建模。关于倾向性建模的更多细节可以参考 [FX06] 和 [SG09] 两本书。

这一框架也能够扩展到在多个可能的激励方案中选择最优的方案。例如,一个零售商可以估计对于两个激烈方案 A 和 B(例如巧克力冰激淋和香草冰激淋)的期望表现然后对于给定的用户可以根据以下标准[WE07]来选择最优的选项:

WX20180112-112023

最后,值得注意的是响应建模是与客户分群紧密耦合的:

  • 响应建模能够用来检验通过聚类行程的客户分群的可行性。一个分群应该对特定的营销计划有持续的响应。

  • 倾向性模型是基于客户数据训练得到的回归和分类模型。客户分群可以参考对于主要回归量的分析结果。另一方面,从聚类结果中也可以发现合理的倾向性模型。

 

  • Jan 11 / 2018
  • 0
Data, Tech

锐眼洞察 | 2018年数据管理趋势(翻译)

作者:Paramita Ghosh 

原文:Data Management Trends in 2018

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明作者与来源!

近年来,业务数据的数量和种类空前增加,使得所有业务部门都需要更好的进行数据管理实践。 2018年的数据管理趋势将继续以数据治理为中心,通过数据治理确保数据质量的提升,从而改善决策制定。 随着流式数据不断从各种数据通道中输出,企业数据治理团队正在加紧研究和评估其内部框架与数据架构,以实现更好的数据管理。

企业数据管理市场的持续增长,来自于全球各地的组织对改善数据治理的需求的增长。良好的数据治理需要许多不同类型的应用程序以无缝方式一起工作。

2018年数据管理总趋势

2018年预测的技术趋势表明,“智能数字网格”将很快被许多企业采用,无论是全数字还是部分数字。 “全能数字”与人工智能赋能的技术的迅速普及,将很快在全球商业生态系统中显现出来。 未来五年,企业对人工智能技术的选用将成为一个重要的战场。 正在逐渐改变现有业务模式的人工智能趋势将在2025年前实现巨大回报。

根据福布斯的文章“为什么两种趋势的融合将改变企业管理数据的方式”,数据安全和数据治理问题已经开始融合,以降低与企业数据相关的风险。 随着这两个趋势朝着共同的目标努力,企业将不得不采用更高效的数据收集、数据管理和数据安全平台。 例如,具体的旅行服务提供商将被置于更严格的客户数据隐私审查之下。不同规模的组织都在忙于实施GSPR战略,以保护他们的高级资产——业务数据。

“在Gartner发布的2018年度十大战略技术趋势中,读者可以查看关于“事件处理和持续适应性风险和信任评估(CARTA)”的讨论,CARTA将在2020年成为企业业务80%的一部分,以实现基于风险的评估与信任的实时决策管理。

针对数据保护:通用数据保护法规(GDPR)

这将很会变成现实。 通用数据保护条例(GDPR)的基本操作原则与数据保护法(DPA)的基本操作原则类似,它为业务中的数据管理趋势和实践掀开新篇章。 英国信息专员伊丽莎白•德纳姆(Elizabeth Denham)认为,全球的企业应该学会处理GDPR法律中不必要的“威胁”,因为这只是向现有数据保护法律迈进的一步。标题为GDPR的文章将改变数据保护(以下是您需要了解的有关英国GDPR框架的讨论),旨在“协调”整个英国的数据隐私。 根据GDPR,每个国家都将受到监管机构的监督,任何披露、修改或破坏人民数据的行为都将被报告给监管机构。

  1. GDPR给数据收集机构增加了更多的义务。
  2. 对数据曾受到任何损害的个人,GDPR承诺将提升其数据权限。
  3. 在GDPR下,数据收集机构在分享数据之前必须征得个人的同意。

“电讯报”在题为“欧洲数据保护法”的文章中表示,个人数据监管法规将于2018年实施,企业需要从现在开始准备面对这个从DPA到GDPR的转变。 2018年的数据管理趋势似乎表明,到2025年,每年将产生180 ZB的数据。 这一预测暗示了大数据和先进的数据分析市场的发展,新的平台和工具可用于改进数据管理。

新的重点将是经过治理的数据质量,而不是数据量。

2018年数据存储趋势

以下是2018年数据存储实践的趋势预测:

  1. 闪存收入将在2018年保持高位,因为转换技术不仅得到持续优化,价格也有下降。可靠的闪存将减少对服务器的依赖。
  2. 闪存技术将升级以提升系统性能。
  3. 2018年的闪存市场突然扩大,可能会导致原料急剧短缺。建议企业采取必要措施提早购入,以避免后续遇到严重供应紧缩。
  4. 机器嵌入式存储呈倒退趋势,例如HCL的出售。通过HCL或戴尔,客户可以直接将存储嵌入在硬件基础架构中,从而不再需要单独的存储设备。
  5. “五步”分析解决方案将可以嵌入到存储系统中,供用户快速识别和解决问题。
  6. 软件定义存储(SDS)的出现,可以减少数据重复并提高存储效率。详情可阅读文章后面的“超融合基础设施”。
  7. 混合云存储解决方案——公有和私有云存储系统的混合使用可以提高存储效率,同时降低数据丢失的风险。

详细了解2018年顶级数据存储趋势请看这篇文章:Top 5 Storage Trends for 2018: What You Should Know.

利用大数据进行数据货币化

企业已经意识到“数据”是最重要的资产,所以现在已经考虑利用大数据等技术来资产化。随着企业不断收集大量设备数据、网络数据或客户行为数据,他们现在正在考虑通过在数据采集、存储、分析和部署运用相关先进的大数据技术,将这些数据转化为盈利的收入来源。大数据所带来的高级客户分析有望在未来帮助企业增加收入。阅读KD Nugget的文章“2018年大数据公司如何将数据货币化”?可了解详情。

DATAVERSITY的标题为“在数据货币化之路上需要注意的五件事”的文章中,作者进一步扩展了“大数据货币化”的概念,他指出,像Reltio这样的数据应用供应商,通过减少耗费在MDM上的时间和精力来增强数据可视化和数据分析能力,使得服务供应商可以通过这些平台来提供数据即服务(DaaS),这也是大数据货币化的另一个来源。

2018年大数据隐私实践趋势

  1. 由于有各种各样的流入渠道,大数据将在2018年构成重大隐私风险。
  2. 云计算供应商将在进行大数据项目之前接受审核。
  3. 虽然成本高昂,但私有云的使用可能仍然是企业的首选,因为数据相对安全。
  4. 将增加部门间孤岛中大数据治理,以确保满足适当的数据隐私级别。

请阅读以下文章以了解2018年上述大数据隐私实践的紧迫性:6 Big Data Privacy Practices Every Company Should Adopt in 2018

2018年数字营销趋势

客户数据是企业数据资产中最有价值的部分之一。 在2018年,商业用户会发现使用数字营销来管理客户数据有这样的主要趋势:

  1. 市场分析将更多使用人工智能赋能的解决方案。
  2. 机器学习指导的客户分析工具将用于客户细分。
  3. 内容营销的兴起是营销策略的核心区别。
  4. 用于理解客户的物联网分析兴起。

一篇题为“7大数字营销趋势2018年”的文章指出,2018年内容营销将处于业务活动的前端,主要用于个性化客户体验。 企业认为,通过阅读智能内容,客户在他们的记忆中保留了对“品牌的感知”。

2018年数据库管理趋势

由大数据、云、社交、移动数据和其他非结构化数据组成的复杂数据生态系统,使得数据库供应商需要增加诸如“制作数据图”之类的可视功能,使主数据管理(MDM)更加友好。 将社交或大数据与MDM整合将有助于更好地“对客户的360度观察”,一篇名为“主数据管理中的当代趋势”文章详细解释了这一点。 仍在努力将数据库迁移到云端? 可以查看DATAVERSITY的文章“在云中管理数据库:您需要知道的信息”一文,以帮助您规划迁移流程。这篇文章的目的是帮助您了解云服务提供商提供的典型迁移服务,使迁移过程顺利且成本低廉。

  • Jan 09 / 2018
  • 0
Data

锐眼洞察 | 数据科学家、数据工程师、数据统计师和软件工程师之间有何不同?(翻译)

作者:Ronald van Loon

原文:The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers

译者:TalkingData副总裁 Teddy

本译文禁止商用,转载请注明作者与来源!

 1.png

找出数据科学家、数据工程师、软件工程师和数据统计师之间的差异可能会令人困惑和复杂。尽管所有他们都以某种方式与数据相关联,但是他们的工作和管理之间存在根本的区别。

数据的增长及其在整个行业的应用是隐蔽的。在过去的十年中,特别是最近几年,我们看到了负责制作和管理数据的角色的一个重要区别。

数据科学无疑是一个真正的增长领域。来自全球的组织甚至国家的数据收集工作都经历了显著的增长。由于收集和管理数据带来许多复杂的问题,现在这个领域的工作和界定范围十分广泛。我们现在指的数据科学家,其实由数据工程师、数据统计师和软件工程师等更具体任务组成。但除了名称上的差异之外,有多少人可以理解他们所从事的工作的多样性呢?

正如我所猜测的,没有多少人能了解这些数据专家所做的工作。许多人最终得出结论,他们都做同样的工作,并为此分类。没有什么比这个传说更加错误的了,为此,我今天要成为了一个传说破解者,解读数据产业中这些工作的角色差异所造成的冲突。虽然所有这些都有助于推动向真正的数据创建方向的发展,但是它们如何以及为什么会从这个角度出发,存在着巨大的差异。

在这里,我从管理和超越数据的大局角度概述这四类角色的主要属性。他们说无知是幸福的,但是知道真实的情况总是比回避真相要好。

数据统计师

数据统计师站在整个流程的前端,运用统计理论解决众多行业的实际问题。他们拥有手段和独立性来选择适合寻找和收集数据的可行方案。

数据统计师的职责是通过设计调查、问卷、实验等有意义的方式来收集数据。

他们从数据中分析和解释分析结果,并将他们分析发现的结论报告给上级。数据统计师需要具有分析数据、解读数据和以简单易懂的方式叙述复杂概念的能力。

数据统计师理解研究产生的数字,并将这些数字应用到现实生活中。

软件工程师

软件工程师是数据分析流程的重要前端,负责构建系统和应用程序。软件工程师将负责开发和测试/审查系统和应用程序工作的一部分。他们负责建造产出数据最终产物的产品。软件工程可能是所有这四个角色中最历史最久的一个,在数据繁荣开始之前,软件工程是社会方式中必不可少的一部分。

软件工程师负责开发用于收集和处理数据的前、后端系统。这些网络/移动应用程序通过完美的软件设计推动操作系统的发展。然后通过软件工程师打造的应用程序将生成的数据传递给数据工程师和数据科学家。

数据工程师

数据工程师是致力于开发、构建、测试和维护体系结构(如大规模处理系统或数据库)的人员。数据工程师与数据科学家经常被混为一谈,他们之间的区别是数据科学家是清理、组织和查看大数据的人。

在上面的比较中,您可能会发现对动词“清理”的使用有些异乎寻常和粗心,但事实上,它的目的是更好地反映数据工程师和数据科学家之间的差异。总的来说,可以体现出这两类专家所做的努力都是为了获得简单易用的格式数据,但两者之间的技术和责任是不同的。

数据工程师负责处理来自众多机器、人员或仪器错误的原始数据。这些数据可能包含可疑记录,甚至可能无法验证。这些数据不仅是未格式化的,而且还包含用于特定系统的代码。

这就是数据工程师们发挥用作的地方了。他们不仅提出提高数据效率、质量和可靠性的方法和技术,还要实现这些方法。为了搞定这个复杂的事情,他们将不得不使用许多工具并掌握各种语言。数据工程师实际上要确保他们的工作架构对数据科学家来说是可行的。数据工程师一旦完成了初始流程,就必须将数据交付给数据科学家团队。

用简单术语来说,数据工程师通过服务器确保数据流以不间断的方式传输。他们主要负责数据所需的架构。

数据科学家

我们现在知道数据科学家将获得数据工程师加工过的数据。数据已经被清理和处理,数据科学家可以使用这些数据来输入分析程序,以准备数据用于预测建模。为了建立这些模型,数据科学家需要做广泛的研究,积累来自外部和内部的大量数据来满足所有的业务需求。

一旦数据科学家完成了初始阶段的分析,就必须确保他们所做的工作是自动化的,所有的洞察都会定期交付给所有关键业务利益相关者。事实上,成为数据科学家或数据工程师所需要的技能显然有一些类似。但是在行业内,这两者间的区别正在逐渐变得更加明显。数据科学家需要了解与统计、机器学习和数学相关的复杂细节,以帮助构建完美无瑕的预测模型。此外,数据科学家还需要懂一些分布式计算。通过分布式计算,数据科学家将能够访问由工程团队处理的数据。数据科学家还负责向所有业务利益相关者提交报告,因此需要关注可视化。

数据科学家运用其分析能力,从输入机器的数据中提取出有意义的发现。他们将最终结果报告提供给所有关键利益相关者。

数据领域正在不断发展,它包含了比我们以前所能想象的更多的可能性。

页面:12345678...20
随时欢迎您 联系我们