锐眼洞察 | 2018 关于数据的一些思考

作者:TalkingData 陈雷

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

掉过的那些数据坑

虽然过去的咨询、架构、软件工程管理工作中一直在分析数据、应用数据,一直在填各种坑,但真正跳进数据这个坑是始于 2015 年加入 TalkingData,真正把数据作为自己工作与研究的主体。 2015 年大数据公司的数据应用刚刚起步,我们就已经利用自己积累的数据,率先在行业内建立起一套数据标签体系,这套数据标签体系成为数据服务工作的起点,我们利用这批数据标签建立了移动互联网行业的覆盖和活跃排行榜,为移动用户人群的移动行为画像,起到了很好的示范效应。 随着数据应用逐步深入到深水区域,我们开始深度尝试数据标签在行业中进行精确营销、精细化客户运营、金融用户的风控识别,这时发现原有的标准化数据标签的应用效果参差不齐。 有些标签在特定人群使用中有效果,但换一个人群的效果差异就可能很大。举个例子,我们的标准标签建模后在金融风险客戶甄別上的 KS 值在 0.14 到 0.19 之间,基本属于不可用的范畴。 仔细分析标准标签的原始数据和信息加工场景后,我们对原始数据进行进一步发掘,针对行业需求深入探索数据中的信息含义,定制了一系列的行业标签。 针对金融用户的风控需求,我们从用户的稳定性、金融行为、消费行为、位置趋势、性格偏好等多个金融视角重新制定了一套风控标签,这些标签建模对金融贷款风险用户甄别的 KS 值提升到 029-0.39 之间,基本满足了金融客户对行为数据的期望值。但在金融数据应用金字塔上,行为数据依然处在金字塔的底端,难以撼动金融客户的数据应用习惯。 复盘过去几年做的事,我们总结了数据工程方法论,针对数据应用的层级归纳了数据、信息、知识、洞察、智慧等五个层次。   data_information_knowledge_insight_wisdom-1

图片来自:David Somerville

过去,数据分析师在做数据应用时,起点常常是数据标签,数据标签属于信息层面。只有当信息不足的时候我们才把数据分析的开始层次回退到数据层面,直接在数据中提取更加丰富的信息内容。 这样的经验与教训过程进一步促发了更多思考:

  • 采集和使用的原始数据是否真实?

  • 数据的丰富程度能否满足应用需求?

  • 数据工程过程中如何保证信息的传递?

这些问题触发我们重新去认识数据与信息,重新去理解数据的本质。

数据的本质

以下是百度百科上查到的数据与信息的定义:

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据作具有含义的解释。 数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现心事,信息是数据有意义的表示。 数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

可以看出,这里数据及信息的定义还是比较生硬,比较模糊, 而在实际应用中数据与信息有很深的联系,常常被混合用在一起。 我重新把信息与数据的关系拉开看,用下面的图来表述这个关系。 WX20180130-105719   有种说法是世界上几乎任何事物都可以用信息的方式量化。这里的事物就是信息的主体,信息主体的信息被采集并量化(比特化的过程),数据就是这个信息量化后的载体。作为载体,数据本身不带有任何目标,也不是目标,数据的应用才是数据价值所在和最终目标。 数据的应用过程的起点就是信息的还原,信息的表现往往也是以数据形式存在。 在 TalkingData 的数据中信息的主体就是人,但 TalkingData 并不是对人的信息直接采集,而是通过现代人的随身必备的介质——手机,来采集人的信息。 信息的釆集是通过 SDK 获取的信息主体所做的移动互联网行为数据。当然,从信息主体的人的角度来看,TalkingData 的数据采集能力只是很有限的能力,采集的数据也仅仅是人这个信息主体上的数据片段。 信息主体能够被数据化的能力取决于数据的釆集技术和能力的发展。过去,在小数据时代,人的信息釆集能力仅限于关键性信息,而且很多的数据分布在无数不同的场景中,很难收集、归拢,也无法真正还原信息主体上的信息。 随着各种全新的信息釆集手段出现,信息采集越来越丰富,才能越来越接近信息主体的真相。也就是车老师在《数据的本质》一书中谈及的完美数据。

完美数据

完美数据的提出来源于车品觉老师的书《数据的本质》,完美数据是基于一个假设:信息主体上的所有信息都是可以获取的。随着数据技术的发展,信息主体上的信息采集和数字化能力正在不断提升,完美信息正在趋近。 WX20180130-143250  

《数据的本质》TalkingData 定制版

完美数据的依据是数据采集能力变化,生活在现代社会,正常的人完全无法避开周边无孔不入的数据采集。 上个网浏览个网站,网站会记录你的浏览历史;网店买个商品,网店会记录你的所有浏览记录、交易记录;用着手机,手机上的各款应用都在记录你的移动互联网行为信息;线下逛个商场,流量摄像头、Wi-Fi 服务、Wi-Fi 探针在统计着客流量的同时,也在记录着客流轨迹;走在城市的街道上,周边的无数安保摄像头也在不停的记录着人群的图像; 在家里, 每个智能家电在提供生活便利的同时, 也在不断累积你的行为历史。 可能大家已经很恐慌了,我们的数据都在不停地被各种收集手段收集,是不是以后就没有隐私了。罗胖的跨年演讲也在用比特化脑洞的概念来强化这份焦虑。其实这些数据离完美数据的方向还很远。 举个例子,图像记录生活从远古就已经存在,图像的比特化也开始于电子图片产生,但是图片中蕴含的信息却极其复杂,现在的 AI 的图像识别能力在深度信息获取上依然有很大的局限。具体可以参考朱松纯教授在视觉求索微信公众号中的文章《浅谈人工智能:现状、任务、构架与统一》中的计算机视觉:从深到暗一节。 实现完美数据的障碍在一段时间内依然很大,体现在几个方面:信息主题的数据采集能力还不完善;采集后的数据可能分散在多个数据 DOMAIN 中,数据的整合成本与难度较大;数据的信息还原能力不足,导致大量数据无法应用,空耗着数据存储的巨大成本。 数据圈一直有个暗数据的概念,暗数据特指那些已经被采集的数据但还没有被发掘和理解的数据。 据统计,大部分企业暗数据的占比高达 90%。再拿宇宙来类比,据估算,宇宙中的暗物质、暗能量更是高达 96%。按照这样估算,我们当前能够采集的数据占完美数据的比重小得可怜。

big-data-dark-data

图片来自:KDnuggets

数据分析师们是否要开始焦虑了? 信息的作用是应用场景,既然没有绝对的完美数据,我们可否寻找业务中的最佳数据应用场景?这些场景能够在一个相对小的环境内,实现准完美数据的应用。

数据场景

场景这个词这几年很是流行,原来用于文化圈的一个词被重构用来展示人与商业的连接。伴随着新场景的创造,新体验、新流行、新洞察、新生活方式等新物种层出不穷。 数据场景展示的是数据与业务场景的连接,数据很早就已经被应用于各类业务场景中了,例如:零售中的精准营销、店铺管理、品类管理、库存管理;金融中的普惠金融、风控管理、智能投顾;物流中的线路优化、运营风控等。 但是过去由于数据采集和分析能力的局限,大部分数据场景仅仅局限于经营分析,对于整体的业务场景的支持作用有限。 每个数据场景都是对应着一个业务场景,业务场景往往可以演绎成一个系统,数据场景同样也可以演绎成一个系统的数据应用场景。 大多数的业务场景都是一个复杂的系统,这个复杂的系统往往是多个层次,每个层次又是由多个尺度组成了一个复杂的系统。我用现在极为火爆的零售场景来举个例子。 零售业态最常讲的尺度有人、货、场,我们来看看线下的大型购物中心,购物中心可能包括多家零售店、超市,组成一个较为复杂的系统。购物中心、零售商家是两个基本层次,每个层次的经营核心都是人、货、场。在这三个尺度上,购物中心与商家的数据采集和应用场景就会有很大差异。

线下购物中心对人的数据掌握一直是个难点,购物中心与商家都逐渐建立了会员体系,但是在用户与客户的转换上,线下商家一直处于被动的模式。 现在,随着 Wi-Fi 等技术的推广应用,建立了更多的数据采集点,但购物中心与商家在数据的维度与深度上依然有较大的差异。例如购物中心只能获取人的流量与轨迹, 获取不了消费关联。

购物中心的系统往往管理到的是商户,这些商户的整体销售数据购物中心可以获取,但到了每个商户的单品销售情况,往往是在单个商家的手上。

线下零售的覆盖范围有限,购物中心的选址与定位,购物中心中零售商家的选择,店铺分布都是需要大量数据来支撑。 可以看出购物中心与零售店两个层次上,零售企业都可以利用自己的人货场数据形成自己层次上的知识。在购物中心这个小的系统上建立一个知识体系来支持自己的运营工作。 购物中心并不是一个孤立的系统,周边的商业环境、配套、线上电商都是这个大系统的一部分,从系统分析的角度,需要更多层次的分析和更多尺度的分析。 我们团队开发了一套方法来系统的解剖和分析一个业务的层次和每个层次中的多个尺度,并识别出其中的关键数据场景,下图描述了这个方法的部分概况。

WX20180130-143444

数据场景的选择

在数据场景中,数据细分场景很多,但数据的采集、存储、应用能力都有很多的局限性,企业的数据负责人需要找到一种系统的分析方法来支持数据分析,让自己的数据应用更加合理。

从单一到复杂

AlphaGo 在围棋方面战胜了人类,这是数据及 AI 领域一次伟大的胜利。但是 AlphaGo 的胜利一直被认为是一次纯粹的干净的数据场景。 首先,围棋对局中的数据与信息的高度一致性,数据能够被完美还原成为信息;其次,信息是完全可以观测的,尽管对弈的人有很多其它因素,但 AlphaGo 完全忽略了人的其它因素;第三,数据中没有噪音,能够完美重现算法;最后,围棋对局中的反馈非常快,这是一个完美的数据、分析、应用、反馈的一个闭环。 大部分实际的系统相对比较复杂,在选择中要充分考虑数据和信息的这几个考虑尺度,把复杂系统分解成为多个相对简单的子系统,并逐步实现数据的价值。

从封闭到开放

在对比零售的线上与线下的用户行为分析时,我们发现,线上的电商特别是大的电商平台例如淘宝、京东,数据场景的封闭性远高于线下的场景,电商平台可以从用户的登录、商品浏览、营销参与、购物意向、订单生成、物流收件、售后服务形成了一个完整的相对封闭的数据场景闭环。 用户的业务数据、行为数据、商品关系相对完整,可以非常客观地评估用户的消费偏好、服务偏好。而线下的零售数据场景则比较开放,销售流程中的开放点太多,增大了数据采集、数据整合和数据分析应用的难度。

从粗放到细化

对于人的描述,生老病死是状态,喜怒哀乐是情绪,衣食住行是消费,爱恨情仇是关系,按照国外文献上的分类方式,这里的每个尺度都被细化成为 64 个不同细分分级。 正是因为人类的复杂程度,对于单个人的精准化营销非常困难。我们通常是把聚焦从单个个体身上拉长到一个人群分类上,通过对人的分群,实现群体特征的聚像,再通过对于特定人群的营销实现精准营销的目标。 那么对于个人的营销是否可以做到精准呢?从人类的实际案例来看,一个线下的营销人员完全可以通过精密设计的营销步骤和多次沟通不断采集信息及反馈, 同时实施带有影响力的信息反馈,最终实现精准营销。 下图描述了通过系统风险方法论定位到数据应用场景的选择样例。 WX20180130-143352

数据引擎

数据场景的选择是在企业中识别出关键的可落地的业务场景,利用采集和积累的数据,产生知识与洞察,而数据应用闭环的最后一个环节是执行。通过一个数据引擎实现数据分析的闭环反馈,实现信息采集及分析的持续优化。 2017 年,我们团队设计了这样的数据引擎的原型,这个原型参考了人的神经系统。 引擎前方是一个实时业务事件引擎,接受外界数据信息并提供数据行动决策反馈; 事件信息经过预处理后由特征选择器根据相应的知识领域,从数据源选择相应的信息特征。 数据的决策由两套系统来支持, 系统 1 由规则引擎来支撑,模拟人的直觉反应,即处于自主控制状态,快速、无意识地做出决策;系统 2 由机器学习模型支撑, 模拟更复杂的行为选择经过深度复杂思考后的决策。 下图展示了这样的一个数据引擎的结构图。 WX20180130-143408

这个系统最早被应用在金融风控中,提供营销反欺诈,交易反欺诈的检测与控制。我们也针对金融反欺诈的需求组织了 8 大类智能决策策略作为数据引擎的策略纲领。 当然这样的系统需要添加更多的能力,包括控制论因素、经济学因素、博弈论等更多复杂的自适应系统能力,才能让这个数据引擎更加健壮。 通过数据、信息、知识、执行的数据能力闭环,后续就是在事上练,不断从大量数据中通过知行合一的方法,修炼数据应用的内功。

数据治理

提起数据治理这个话题我其实比较犯怵。早在 2007 年还在 IBM 工作时,就已经开始接触数据治理的整体框架,在当时的理念当中,IT 是业务创新的增长引擎,而数据就是支持这个引擎运转的汽油。 但数据这个汽油不是我们在市场上已经看到的整理得很标准的 92 号、95 号、98 号汽油。在企业当中,无论是众多应用系统中的结构数据还是散落在各个系统中的大量非结构的数据都非常复杂。 如何找到一个方法把数据和业务需求规整到一起,再用相应的手段促进信息的低损流动,最终促进企业的业务创新,这个方法就是整个数据治理的核心。 在企业数据治理的框架之下,数据治理变成了一个非常复杂的体系,在这个体系中企业的数据成熟度被分成了 5 个级别, 而每个级别都需要基于 11 个类别来度量企业的数据治理能力。 这个数据治理框架较为完备,我们仔细评估这 11 个治理域都是针对数据的治理来定义的,完全实现这样的一套数据治理体系需要一个较为复杂的组织体系及大量的数据治理流程和工具来支撑,往往只有非常大的企业才能支撑一个比较完整的数据治理能力的构建与全面实施。

WX20180130-143646

图片来自:Data-Ed Online Webinar: Data Governance Strategies

仔细回顾过去的数据治理的落地与实践,数据治理体系的落地效果往往并不明显, 回顾总结的教训有几个:数据治理体系过于复杂,往往会被定位在一个 IT 的数据治理部门,部门把大量工作精力集中于治理,反而忘却了数据治理的核心是数据价值。 数据来源于业务,应用于业务,专注于企业级的数据治理往往要跨越多个数据应用业务部门,治理过程庞杂实际上影响了业务部门的效率。 数据驱动的业务,数据驱动的企业叫嚷了很多年,但绝大多数企业的数据应用能力还很低,很难被企业提升到一个战略层次去实施。 同样的道理,数据治理的主要操盘手 CDO(首席数据官),这个职位概念被业界提了很多年,但一个 CDO 上任以后,马上就面临着如何去平衡数据创新、部门协作、生产任务之间的平衡关系。需要一个很强的智商、情商与财商高度结合的高手才能很好处理一个大型企业的数据治理工作。 过去多年的数据实践中,也曾经看到过几个比较好的数据治理切入案例:

案例 1

某大型企业,CDO 上任一个月,就在企业最高管理层的支持下,快速砍出了三板斧:

  1. 收集了企业信息系统中 80% 的现有数据,实现了数据的集中化

  2. 快速梳理了企业数据目录,分发给各个业务部门,征求数据调用需求

  3. 分析了全部需求后,针对数据需求热度,开发了数据服务接口,开始实现对业务部门的数据服务能力。

初见成效以后,才逐渐开始了数据治理的框架建设工作。

案例 2

某大型国企,新 CDO 上任以后,系统调研了当前的企业数据状况及过去几年前任 CDO 在数据标准化、数据整合陷入的各种泥坑后,果断放弃了在当前数据上的各种整合与标准化治理工作。 继而把数据核心人才集中到外界渴求的数据内容上,针对外界需求,开发了一系列数据服务产品,迅速在政府、旅游、金融等领域建立了自己的数据应用能力, 形成数据收入。该 CDO 也成为企业业务创新的代表,成为业界的一个标杆。 这两个案例的共性是这两位 CDO 都把自己的工作中心从管理转移到价值实现上来,个人认为这是数据治理应该遵循的核心原则。下图的两种数据治理的框架图的绘制方式就基本体现了两类数据治理的理念差异。 WX20180130-143622

图片来自:West Monroe

WX20180130-143601图片来自:Data Streams

简化的数据治理

无论数据治理的复杂性如何,数据治理的核心依然是数据资产。围绕着数据资产,有两大类的数据治理方式,分别是垂直治理与水平治理。

垂直治理

垂直治理主要关注于数据产生、数据采集、数据存储、数据转换、数据应用、价值实现的数据垂直治理闭环。 下图描述的是一个企业数据的垂直治理情况。企业级数据治理的数据源来自企业应用系统, 这些数据可能会经过数据应用系统、ODS、数据仓库、数据集市、数据应用等多个数据工程节点。 节点之间的数据转换过程都需要产生大量的元数据,保证数据信息源到数据应用的信息价值过程是垂直治理的一个核心难点。 与此同时,垂直治理同样需要建立相应的治理组织,工作流程及策略标准来保障整个垂直治理的过程。垂直治理是数据治理的基础,如果一个企业对于垂直治理没能建立体系,其它的数据治理必然成为一个空中楼阁,难以发挥其应有的价值。 WX20180130-143544

水平治理

水平治理往往是在企业数据资产化或集中化以后,数据治理的重心逐渐转移到企业级数据资产的价值发掘和探索。从企业来看,数据的价值往往体现在三个主要层面:战略决策支持、管理决策支持和运营决策支持。决策支持的程度由可以定义为业务数据描述、据化诊断、数据预测、智能决策等几个层面。在水平数据治理之下,围绕着数据相关的资产,治理的过程主要有发现、规定、应用、度量等一系列过程。 WX20180130-143530

图片来自:Informatica Blog

在水平治理过程中,需要重点强调的是数据资产并不仅仅是数据本身,还需要考虑到数据相关的业务流程、支撑组织,具体应用当中需要细化到流程的节点,组织也要细化到执行个体上。只有把数据治理覆盖到企业战略、优先级、业务场景、业务策略、业务标准、架构等多个层面上,才能够真正体现数据的全面性与关联性。 第二个需要重点强调的是价值必须深入到这过程中的每一个环节,始终坚持价值为要,才能够更好的实现数据治理的目标。 数据是一个企业的重要资产之一,未来的数据治理可能像财务或人力资源部门一样会成为企业的一个业务功能部门。这个部门会逐渐建立自己的业务流程、管理流程、品质规范、信息生命周期管理过程等众多的管理过程和最佳管理实践。 这个部门会比以前企业业务和 IT 部门之间的关系更加紧密,建立起强大的协作关系来赋能业务部门的关键业务创新。从数据分析技术本身,我们也看到了众多新技术,例如机器学习技术已经被用在数据治理过程当中来数据化关键过程,并且量化管控效果及价值。 随着技术与工具的发展,更多的企业已经开始了数据治理能力的建设,相信数据治理将会从大型企业的样板工程逐步成为企业的标配,实现对数据驱动企业的全面支持。  

锐眼洞察 | 报告:接近技术提升商业银行的竞争力(翻译)

作者:Greg Sterling

原文:Report: Location data provides ways to differentiate in a commoditized banking sector

译者:TalkingData CTO 肖文峰

本文著作权归原作者所有。本译文禁止商用,转载请注明来源与译者!

译者注:接近技术(Beacon、WIFI、NFC等)作为越来越重要的场景触发的手段,广泛应用于各种线下商业过程的用户体验提升。

更详细的案例可以参看报告原文:https://www.proximity.directory/reports/

Unacst的报告值得大家关注,其中列举了接近技术字各个行业的使用案例,对零售、房地产、金融等领域的实践有一定借鉴意义。

个性化、提高效率和增强客户体验,是Unacast季度报告中引用的一些例子所要表达的关键词。

位置数据平台Unacast最近发布了其Q3的Proximity.Directory报告。Unacast每个季度都会发布报告,展示位置技术在不同的细分市场或垂直领域中的应用。

Q3的报告考察了金融服务行业使用位置情报的情况。报告提出的一个有趣的观点是,虽然信用卡交易数据越来越多地被用于许多场景(例如,消费者行为分析、公司收入预测),但它描述的并不全面,因为现金仍被广泛使用,多达32%的离线交易都是通过现金完成。

Unacast还认为,虽然银行也已经深度市场化,但位置数据依然可以用来提高效率、客户体验和忠诚度:

  • 品牌广告和ATM设备位置优化 – 基于步行和交通模式、邻里特征和其他与现实世界行为相关的变量。
  • 个性化功能,以满足不断上升的消费者期望。
  • 针对银行客户的高级或增强型服务,例如向ATM机发送接近警报,以消除实物卡提取现金的需要。

该报告讨论了欧洲和美国银行围绕移动支付、合规和消费者便利体验的几个案例研究。其中一个案例涉及花旗银行的试点项目,试图实现以下目标:

  • 提供与客户环境和地点相关的更具针对性的移动体验。
  • 提供安全的基于应用程序的方法来使用ATM设备(特别是在晚上)。
  • VIP进入银行时,给银行员工提醒。

报告指出,全球现在有1730万个接近传感器被使用。此类别包括一系列技术:信标(比如Beacon)、WiFi、NFC等。信标仍然是当今最流行的接近传感器,大部分的部署如下:

  • 信标 – 58%。
  • WiFi(用于位置感知) -25%。
  • 近场通信(NFC) – 17%。

虽然信标部署是“稳定的”,但是根据报告,其他类的技术使用比例正在增加。

美国仍然是接近传感器和相关技术的主要市场。然而,其整体领先地位从全球部署的35%略有下降到本季度的33%。接下来的国家是英国、加拿大和印度。然后是法国、意大利、西班牙和澳大利亚(均为3%)。

根据Unacast的统计,以下是全球涉及接近传感器市场的软件公司排名:

00.png

该报告还定期研究多个垂直领域的技术渗透情况。下图比较了2017年第三季度和2016年第三季度各行业(全球)接近传感器的部署情况。

01.png

位置智能越来越多地是关于洞察和分析,而不是推送通知和直接面向消费者的营销。这个数据指出的其中一个较大的故事是,信标作为一个定向选择技术,正在被纳入更广泛的范畴——接近技术。

 

锐眼洞察 | Azure Databricks技术概览(翻译)

作者:Matei Zaharia & Peter Carlin 

原文:A Technical Overview of Azure Databricks

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源与译者!

译者注: 从前年就从Databricks的一些朋友了解到Databricks在构建基于Spark的云平台。如今这个世界是云的时代已经是个勿容置疑的趋势。传统的IT厂商都在做云端的转型,比如Oracle已经决定将自己安身立命的Oracle数据库都变成云端的服务了。Databricks作为Spark的核心贡献者,其商业模型势必是要走到云端提供端到端的大数据平台。这篇文章就是关于Databricks和Azure Cloud的深度集成的Azure Databricks。回到我们自身,我坚信我们的未来也是与云化密不可分的。

今天,我们在Microsoft connect(); 介绍了Azure Databricks,一个结合了业内最好的Apache Spark分析平台和Azure Cloud的能力的令人兴奋的新的服务。通过Databricks和微软的紧密的合作,Azure Databricks带来了在其他的云平台上都不具备的独特的价值。这篇博客将会介绍这个新的技术以及通过Azure上的Databricks给数据科学家、数据工程师和业务决策者带来的新的能力。

Apache Spark + Databricks + Enterprise Cloud = Azure Databricks

当你在云上管理大量的数据的时候,你给预测分析、AI和实时应用带来了无限的可能。在过去的五年中,构造这些应用选择的平台是Apache Spark,由于有全球数以千计的企业组成的庞大的社区,Spark使得实时的运行大规模的强大的分析算法成为可能,从而能够支持进行业务洞察。然而,大规模的部署和管理Spark仍旧是个挑战,尤其是对于有大量的用户并且需要很强大的安全要求的企业客户。 进入Databricks,公司是2013年由启动Spark项目的团队创建的。Databricks提供针对云平台进行优化的端到端的托管式的Spark平台。通过一键部署、自动弹性伸缩、以及优化的可以在云上以10倍到100倍提高性能的Spark运行时环境,Databricks使得运行大规模的Spark负载简单而且高效。另外,Databricks还包括了交互式的notebook环境,监控工具以及安全控制从而使得Spark可以非常容易的在具有上千个用户的企业落地。 在Azure Databricks, 通过微软和Databricks的密切合作,我们在Databricks平台基础能力上更进一步,紧密的集成了Azure服务的能力。Azure Databricks提供了访问Azure存储平台的优化的连接器,从而提供最快的数据访问速度。同时支持通过Azure Console的一件事管理。这是Apache Spark平台第一次紧密的与一个云平台提供商合作,从最底层进行优化提高数据分析的性能。

对数据工程师和数据科学家的好处

为什么Azure Databricks对于数据工程师和数据科学家有用呢?让我们来看看:

优化的环境

Azure Databricks从底层开始做优化从而保证在云上的性能和成本收益。Databricks运行时环境给Spark负载增加了几个关键的能力,可以在Azure上运行时提高性能并且节省10到100倍的成本:

  1. 高速的连接到Azure Blob Store和Azure Data Lake等Azure存储服务的连接器,这些连接器是与这些服务的开发者一起联合开发的。
  2. Spark集群的自动缩放和自动终止,从而最小化花销。
  3. 包括缓存,索引和高级查询优化在内的性能优化,比传统的Apache Spark在云或本地环境中的性能提高了10-100倍。

无缝的协同

你应该记得当文档变得真正的能多人编辑时效率是如何的提升。我们为什么不能使得数据工程和数据科学也变成这样?Azure Databricks就是如此。Databricks上的notebook能够进行共享和实时协作,以便您组织中的每个人都可以使用您的数据。仪表板使业务用户能够在现在存在的任务中使用新的参数。 Databricks与PowerBI紧密的集成以支持交互式的可视化。 能够使这些能力成为可能,是因为Azure Databricks由Azure数据库和其他支持高度并发访问、高性能和地理复制的技术的支持的。

易于使用

Azure Databricks附带了交互式的notebook,可让您连接到常见的数据源,运行机器学习算法,并学习Apache Spark的基本知识以快速入门。 它还具有集成的调试环境,可以让您从交互式notebook中分析Spark作业的进度,另外还包含分析已经完成的作业的强大工具。 最后,还预装了其他常用分析库,例如Python和R数据科学技术栈,以便您可以使用Spark来进行洞察。 我们确实相信大数据可以变得数以十倍的更易用,我们正在继续坚持Apache Spark的理念,以提供统一的端到端平台。

Azure Databricks架构

那么Azure Databricks是如何组装在一起的呢?在高层次上,服务在每个Azure客户的订阅中启动和管理worker节点,从而让客户可以利用其帐户中的现有管理工具。 具体而言,当客户通过Databricks启动集群时,“Databricks appliance”将作为客户订阅中的Azure资源进行部署。 客户指定使用的虚拟机的类型和数量,但Databricks管理所有其他方面。 除了这个设备,一个托管资源组被部署到客户的订阅中,托管资源包括一个VNet,一个安全组和一个存储账户, 这些是Azure用户熟悉的概念。 一旦这些服务准备就绪,用户就可以通过Azure Databricks UI或通过自动伸缩等功能来管理Databricks集群。 所有元数据(如计划作业)都存储在具有地理复制功能的Azure数据库中以实现容错。 Azure-DB-Blog-Image.png

对于用户来说,这个设计意味着两件事。 首先,他们可以轻松地将Azure Databricks连接到其帐户中的任何存储资源,例如现有的Blob Store或Data Lake。 其次,Databricks从Azure控制中心集中管理,不需要额外的设置。

完全的Azure集成

我们将Azure Databricks与Azure平台的所有功能紧密集成,以便为用户提供最好的平台。 以下是我们迄今为止所做的一些部分:

  • VM类型的多样性:客户可以使用所有现有的VM:机器学习场景的F系列,海量内存场景的M系列,通用的D系列等。
  • 安全和隐私:在Azure中,数据的所有权和控制权属于客户。 我们已经构建了Azure Databricks来遵守这些标准。 我们旨在为Azure Databricks提供Azure其余部分遵守的所有合规性认证。
  • 网络拓扑结构的灵活性:客户有多种网络基础设施需求。 Azure Databricks支持客户VNET中的部署,这可以控制可以访问哪些源和接收器以及如何访问它们。
  • Azure存储和Azure Data Lake集成:通过DBFS向Databricks用户展示这些存储服务,以便对现有数据进行缓存和优化的分析。
  • Azure Power BI:用户可以使用JDBC将Power BI直接连接到Databricks集群,以便使用熟悉的工具以大规模的交互方式查询数据。
  • Azure Active Directory提供对资源访问的控制,并已在大多数企业中使用。 Azure Databricks工作区部署在客户订阅中,所以可以非常自然的用AAD控制访问数据源,结果和作业。
  • Azure SQL数据仓库,Azure SQL数据库和Azure CosmosDB:Azure Databricks可轻松高效地将结果上载到这些服务中,以便进一步分析和提供实时服务,从而使在Azure上构建端到端数据架构变得非常简单。

除了您可以看到的所有整合之外,我们还努力以无法看到的方式进行整合 – 虽然好处是显而易见的。

  • 在内部,我们使用Azure容器服务通过容器运行Azure Databricks控制面板和数据面板。
  • 加速网络提供了云中最快的虚拟化网络基础架构,Azure Databricks利用它来进一步提高Spark的性能。
  • 最新一代的Azure硬件(Dv3虚拟机),NvMe SSD能够在IO上延迟100us,这使Databricks I / O性能更好。

我们只是抓到最浅层的表面! 随着服务GA并且进一步演进,我们希望能够继续与其他即将到来的Azure服务进行整合。

结论

我们很高兴能够携手合作为您带来Azure Databricks。 领先的云提供商和领先的分析系统提供商首次合作建立了一个云端分析平台——从Azure的存储和网络基础架构到Databricks的Apache Spark运行环境。 我们相信,Azure Databricks将极大地简化企业级生产环境数据应用的构建,并且我们很乐意听到您的反馈意见。  

锐眼洞察 | 移动App行为数据研究的商业价值

作者:TalkingData首席布道师 鲍忠铁

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

 

证券行业的客户金融交易渠道将会转向移动互联网,客户证券投资和财富管理服务将主要发生在移动App,其将成为客户的主要入口和金融产品主要发布场所。证券企业如果想赢得未来市场,赢得客户,取得在金融市场的领先优势,就必须了解客户的金融产品需要,重视客户的交易行为和互动行为数据。利用数据了提升客户体验,提升移动互联网端的数据和业务运营能力,具有同互联网企业一样的技术能力和迭代速度。重视用户的移动端行为数据将成为证券行业未来在市场成败的一个关键。

证券行业过去主要分析交易数据、资产数据、产品数据、人口属性数据。典型数据应用有数据库营销中的关联分析和交叉销售。交易数据对营销具有较大的商业价值,特别是老客户经营。例如某些产品的客户复购率较高,利用交易数据可以进行多次营销,降低营销成本。

行为数据相对于交易数据具有不确定性大的特点,行为数据更关注客户的兴趣偏好,更适合了解客户体验和用户潜在金融需求。利用App行为数据进行营销,具有范围广、预测性强等优点,缺点主要其营销的业务转化率不太稳定。考虑到潜在的目标人群基数较大,即使是较低的转化率,其转化的目标客户也会很多。曾经在一个案例中,利用资讯推送来影响客户进行投资,其过转化率接近40%,大大超出了想象。一般行为数据营销的转化率都低于10%,集中在1% – 5%之间。如果低于1%的转化率,这个基于行为数据建立的营销方案将会被放弃。

行为数据的场景应用建立在场景化标签之上的,基于App内部行为的场景应用来源于具体业务目标,例如证券App中的绑卡入金、购买理财、股票交易、基金买卖、贵金属购买、关注收藏等。

第一节:行为数据分析有助于加速产品迭代和提升客户体验

App行为数据包含浏览、点击、评论、交易等几类,可以通过App的按钮和事件埋点进行提取。经过异常值处理和数据去噪音之后,就可以进行分析和应用。移动互联网企业如BAT等巨头,其产品和用户体验的竞争力就是来源于行为数据的分析和应用。

过去证券行业人员可以通过线下的营业网点来接触客户,利用同客户面对面的交流,了解客户金融产品需求和用户体验。现在客户几乎不再去营业场所,或者去证券营业部的客户年龄都较大。光大银行曾经统计过一个数据,经常到营业网点办理业务的客户,平均年龄为52岁,说明年轻客户基本上很少去网点办理业务。这些年轻客户正是证券行业主要的客群,未来将会成为证券企业的主要收入来源。证券企业如果想了解客户的金融需求和客户体验,其主要的方式就变成了分析App的行为数据,这也说明了研究分析App行为数据的重要性。

在互联网企业中,App运营团队有一个重要的职责就是每天分析App的行为数据,主要是因为行为数据代表了客户对产品的喜好。基于App行为数据的分析,互联网企业的产品经理可以及时调整产品,进行产品迭代,快速满足客户对移动产品的需求。互联网企业产品迭代完全基于App行为数据的分析,基于行为数据的结果。

客户在App的行为点击和浏览数据,辅以时间维度分析和漏斗分析,可以真实反应客户体验情况。互联网企业的运营部门参考这个数据可以分析客户喜欢哪些产品、广告、活动等,同时也可以了解客户不喜欢哪些产品、活动等。利用行为数据分析,运营部门可以实时了解客户体验情况,及时调整运营活动和产品布局,围绕客户需求来提升客户体验。移动互联网时代,客户体验本身比产品更加重要。

证券行业一直想学习和掌握互联网企业的竞争优势,特别是在产品迭代和用户体验提升两个方面。行为数据分析为证券行业产品迭代和体验提升提供了技术支持。证券企业完全可以深度分析App行为数据,利用行为数据分析结果来进行产品迭代和用户体验提升。例如证券行业可以分析App的点击热力图,利用App点击热力图来了解客户喜欢哪些功能,客户很少点击的功能就可以及时下架。参考AB测试的数据来分析客户更加喜欢哪些功能,基于客户点击爱好进行App的功能迭代和用户体验提升。证券行业还可以参考客户DAU、留存时间、打开次数等行为数据进行分析,了解客户对App体验反馈,留存时间增加和打开次数增多代表用户对App的喜爱程度增加。实时反馈的行为数据可以及时让证券行业了解体验情况,及时进行产品迭代。

证券移动App的行为数据具有直观、实时、客观等特点。基于行为数据的分析对于了解客户体验和了解客户对产品喜爱具有重要意义,是证券行产品迭代和用户体验提升的基础数据,证券行业必须重视对其的研究和应用。

第二节 行为数据研究有助于提升券商互联网运营能力

互联网行业有一句经典的话,三分产品、七分运营,好的产品不是设计出来的而是运营出来的。互联网运营的基础就是行为数据的分析,运营团队通过行为数据的分析实现运营能力的提升。

证券企业希望学习互联网企业的数据运营能力,其主要体现在数据的分析和应用能力,包括基于数据的产品运营、渠道运营、用户运营、活动运营等。这些运营能力是建立在数据分析和应用基础之上的,其中行为数据应用能力是其重要组成部分。

产品运营的核心工作就是产品优化,包括UI/UE、产品框架、内容建设、产品维护、用户维护、活动策划等。用户需求不断变化,产品需要通过持续的迭代完善才能满足用户需求,没有运营则无法时刻洞察用户需求变化;运营是让产品持续产生产品价值和商业价值。行为数据是产品进行优化的基础,基于行为数据中的点击数据和浏览数据,运营团队可以了解客户对UI、产品的喜好,对内容的关注,对活动的反应。依据行为数据分析进行产品迭代和优化,行为数据是产品运营的重要参考。

渠道运营是指利用资源和流量为产品带来新增用户,包括免费、付费、换量、人脉积攒、产品的吸引力、圈内人的推荐、策划活动、内容营销、用户口碑等手段。互联网线上渠道发展比较野蛮,鱼龙混杂。特别是移动App推广市场,不但流量贵,而且假量还大。参考TalkingData发布的移动互联网报告,在某些高峰时段,一些渠道的假量超过了50%,也就是说至少有一半的点击和下载是无效的,广告推广费用是浪费的。曾经在某一个特殊时间段TalkingData移动广告监测平台Ad Tracking一天收到了24亿次点击,其中90%的点击是假量、是恶意刷量。券商利用App的行为数据可以有效分析出哪些渠道效果好,真实量比例高;哪些渠道效果差,假量明显。行为数据还可以分析出哪些是真正的客户,哪些是一次性客户,哪些是羊毛党客户,哪些是有效客户。通过App渠道分析数据,券商可以降低广告投放费用,提升线上获客质量,提升广告获客的ROI。行为数据是渠道运营的重要参考指标,通过App渠道数据的分析,可以提升券商在移动互联网渠道运营能力。

用户运营指以用户为中心,遵循用户的生命周期价值点和用户产品需求设置运营活动与规则,制定运营战略与运营目标,严格控制实施过程与结果,以达到预期所设置的运营目标与任务。用户运营最直接价值就是提升用户金融产品的复购率,提升单客价值,激活休眠客户、挽留流失客户、发现潜在客户等。证券行业面临较大的挑战有休眠客户比例过高,客户单客价值不高,流失客户明显。这些问题都可以通过行为数据分析找到解决办法。例如通过客户点击和关注的数据,了解客户资讯需求,主动推送资讯给客户,激活休眠客户。利用点击和浏览行为数据趋势分析,及时了解客户流失倾向,结合客户产品喜好和兴趣爱好,定制激励方案,挽回流失客户。行为数据可以直观反映出客户兴趣和喜好,为用户运营提供方案支持,具有非常大的参考价值。

券商如果希望具备互联网企业的运营能力,在产品运营、渠道运营、用户运营等方具有同互联网企业同样的技术和运营能力,就需要重视行为数据的分析和应用。

第三节 行为数据应用是券商业务智能化发展的基础

证券行业智能化发展是必然趋势,一方面是智能化应用的技术条件具备了,例如数据处理能力、模型算法能力、专业人才储备;一方面是券商所面临的经营成本高、效率低、客户服务覆盖率不高等问题,可以通过智能化应用来解决。

证券行业智能化应用的广义涵义是借助于工具平台和智能应用来解决具体的业务问题,这些业务问题可能是个人投顾无法直接服务全体客户;可能是传统电话客户服务成本高,效率低,客户体验不好;可能是内部流程效率较低,无法满足客户变化的金融需求;也可能是投研和投顾人员缺少可以服务客户资讯平台等。

证券行业智能化应用狭义的应用领域包含智能投顾(机器人理财)、智能客服、智能资讯推荐、智能投研数据平台、智能数据应用平台等。其主要解决还是效率问题,本质还是券商服务的自动化和智能化,可以提升客户体验和降低服务成本。

证券行业智能化应用的一个前提是海量数据,包含交易数据和行为数据。但是这些数据不是原始数据,而是经过业务专家标注的,具有业务价值的数据,可能是标签数据、归类数据和分析结果数据。行为数据对于智能应用具有较大的商业价值,例如在智能客服中,客户的行为数据代表其产品和风险偏好,智能客户可以利用这些处理过的行为数据,为客户打上标签。基于行为数据进行客户分群或分层,智能客户将参考这些行为数据为定制客户服务内容,直接有效地为客户提供金融产品服务。借助于行为数据标签,智能客服将会缩短服务路径,直接切入客户喜好,提升客户体验,提高服务效率。如果行为数据揭示客户倾向于港股交易,智能客服在服务时就可以侧重于港股资讯。如果客户有融资融券倾向,智能客服就会提供相关介绍和激励措施。如果行为数据揭示客户倾向投资能源板块,智能客服就可以提供更多的能源资讯,为客户投资提供支持。

智能投顾原理是参考客户投资风险偏好和投资兴趣,为客户定制投资组合,在一定风险可控的前提下,获得一定的最优收益。行为数据可以支撑智能投顾中客户的投资偏好,通过对客户点击、浏览、关注等行为数据的分析,券商可以了解客户的投资兴趣偏好。例如客户点击股票所属的板块、关注的交易板块、浏览的资讯、这些行为都可以在一定程度上反映客户的投资兴趣,经过一定分析和加工之后,可以作为标签类数据输入到智能投顾平台,作为智能投顾推荐投资组合的参考信息,有助于提升智能投顾的客户体验和客户购买转化率。

券商移动App行为数据具有intention属性,代表了客户内心的需要,也可以认为是客户理性行为和感性行为的综合,其中感性成分更高一些。中国的投资客户,大部分变现为理性投资客户,但是在进行证券交易时往往体现的是感性一面。因此研究行为数据有利于了解客户心理行为,也就是客户感性行为。行为数据经过加工处理之后,可以表现为标签数据,结合业务场景和交易数据,可以帮助券商更加客观了解客户金融需求。券商可以针对客户的兴趣爱好,提供相应的智能资讯和投研报告,协助客户作出更加客观的投资决策。行为数据结合相应的资讯会缩短客户决策周期,提升客户交易积极性,有助于提升客户交易额和交易频度。例如通过行为数据的分析,推送客户关注股票板块的资讯,通过不同组客户测试,发现收到资讯的客户其交易下单率高于不收到资讯客户30%,其中收到相应板块资讯的客户,高于非相关资讯客户的50%。

总之,移动App行为数据的分析和应用可以帮助券商加速产品迭代和提升客户体验,建设同互联网企业同样领先的运营能力,并为券商智能化应用提供具有较高商业价值的数据,推动券商智能化应用的发展。

 

【转载】数据骗局之手游篇【游戏葡萄】

编者按:

本文转载自微信公众账号游戏葡萄,官网微博:游戏葡萄。文中的观点是十分中肯,小编觉得内容相当不错,故从微信搬运到我们的博客上来,原文搬运,有个别行文上的修订,不影响原文主旨。以下为全部内容。

0

葡萄君好像没见过第二个行业的数据像游戏行业的数据这么不靠谱的了。

尤其到了手游年代,好像变本加厉起来。行业里已经被各种令人艳羡的流水、留存、活跃、付费率、ARPU的新闻所包围,多看两眼都让你怀疑自己和他们所处的是不是一个手游行业。一份数据是不是靠谱,或者说是不是有参考价值,主要包括三点:真实性、统计方式、前提条件。

真实性这一点在这里就不讨论了。目前iOS尚且透明一些,Android市场的数据可真是任凭一张嘴。谁家泡沫多多,谁家业界良心,和人品有关,葡萄君不欲引起争议。不过,往外报的数据一般压掉30%的泡沫是正常的。

继续阅读【转载】数据骗局之手游篇【游戏葡萄】