构建公开、透明的数据营销生态

构建公开、透明的数据营销生态

如今各行业快速发展,营销者对于达成即时效果面临越来越多的压力,而前瞻性长期战略更变得越发困难。在急速变换的市场环境下,今日之法未必明日有效。短期战略虽被证实即时效果,但那些具有实效性长期战略的品牌却可以在不断演进的形势中游刃有余。因此,洞见长期品牌战略,对于营销者更具价值。

另一方面,营销者对全链路营销各阶段数据的“不可见”性,也致使营销者失去了指挥棒和方向标,那么如何“构建公开、透明的数据营销生态”是当下营销者们所关心的问题,在这样的背景下:

大中华区艾菲奖《效看十五载︱洞见长期品牌战略》主题论坛于2018年6月7日正式举办。在《公正、公开、透明的营销数据是品牌实现出众成果的基础 》圆桌讨论中,SAP大中华区品牌、赞助和数字营销高级营销总监全戟坚、PHD(宏盟集团)总经理徐平(北京办公室)、LinkedIn 领英中国广告营销总经理蔡晓丹、TalkingData副总裁高铎,就“营销数据透明化”、“大数据营销技术”及“影响一个优秀广告Campaign的核心因素”这三个方面进行了解读:

如何构建透明化营销数据?

TalkingData 高铎:首先更正一下,在广告界,TalkingData早在2012年就推出了移动效果广告监测产品,帮助诸如滴滴出行、摩拜单车等客户优化广告质量。但是品牌营销领域,TalkingData在2017年才发布相应产品,的确是个新兵。

我们要先明白以前的营销数据为什么是不透明的?主要体现在以下几个层面:

1)在TA选择上不透明;

2)在TA触达上实际上转化为媒体触达,也不可见;

3)在TA评估上不是全量评估,是Panel来评估,譬如用10万的人口属性Panel来评估10亿的曝光数据,基本上不可信的;

4)还有评估技术的落伍,譬如对投放区域的评估,大多还是用IP,实际上IP作弊很容易,目前用其它LBS手段都能规避IP位置作弊问题;

知道了哪些地方不透明,就容易理解类似TalkingData这样第三方平台的价值,可以在这几个环节发挥作用,真正做到TA的选择,TA的触达,TA的触达评估和评估方法,都是透明的可见的。

LinkedIn 领英中国蔡晓丹:要想真正的打造一个公开透明的营销环境,为广告主创造最大价值,需要圈里每个人的努力。而这对于媒体来说,也是重要的元素。 对于LinkedIn来说为客户提供真正价值才是企业走到最后的基础。

PHD 宏盟集团徐平:当下,研究广告效果是一个 Campaign 不能忽视的问题,数据的有效与真实性是大家需要共同面对的问题。虽然不同行业与品类的标准不一样,但从数据维度依然可以分为前端数据与后端数据两个层面。举个例子,快消品,IT等电商是他们销售是重要的平台,通过电商数据可以看到ROI等数据进行深入分析;再如,B2B客户比如空中客车,与2C的目标人群不一样,这种则更依赖于客户一方数据,和第三方数据进行分析。

透明化数据营销技术 推动广告精准营销

SAP 全戟坚:我们知道大数据营销、精准营销最大的推动力就是技术,正是有了新技术的应用,才让很多可能性得以实现。TalkingData是个技术见长的公司,你认为什么样的技术和什么样领域,会更好的帮助广告行业的数据透明化?

TalkingData 高铎:提到透明化数据营销技术,还是要结合一些具体应用场景回答更为直观:

  • 譬如,有些汽车广告主,会考核线上曝光和线下到店,这个时候通过数据连接不同场景的技术就非常重要,TalkingData会提供ID Mapping的能力,帮助广告主打通线上曝光数据和线下到店数据,真正做到线上投放线下评估。
  • 再如,有些快消类广告主,自己拥有的第一方用户数据非常少,需要找到更多潜在用户群体,这时候可以根据广告主的一方数据构建数据模型,做Look-alike,帮助广告主找到更多潜在用户。我们发现不同行业、不同场景,甚至不同区域的Look-alike算法在输入维度上都是有差异的,这时候灵活的适用多个场景的Look-alike技术就非常重要;
  • 另外,伴随着各类刷量、流量和劫持羊毛党等作弊现象,导致营销数据不透明,TalkingData有一套经过实践验证的防作弊技术。如有些刷机墙,不停的刷点击或曝光行为,其实缺少人的行为数据,通过姿态识别算法就很容易判断这些流量是虚假流量;再如有些投放其实是投放北京市的,一些流量渠道拿其它区域的流量来冒充北京的流量,就可以通过LBS技术很容易识别出来。

如何策划、评估一个优秀的广告Campaign?

SAP 全戟坚:您认为什么样的Campaign是一个好的Campaign?当我们去计划一个广告Campaign,应该如何从数据的角度入手?

TalkingData 高铎:“TalkingData是一家以数据及基于数据的智能为主业的公司,所以在TalkingData的眼里,一个好的Campaign,是可以用数据说话的,具体讲就是在选择TA、TA分析、TA触达、TA评估、TA优化的全流程里面,都有数据的参与,都有数据作为重要的决策辅助。”

PHD 宏盟集团徐平:“Campaign前期规划、中期优化、结束后做检验,简而言之成功的Campaign在于“正确的时间、正确的地点,用正确的方法把正确的信息,传达给正确的消费者,达到媒体目标及KPI.”

LinkedIn 领英中国蔡晓丹:“营销数据魅力在于收集、沉淀和再利用的长远的价值,每次营销数据的沉淀,分析和洞察,为企业运营、产品改革及商业化决策上有一定指导。”

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

金融行业移动互联网用户运营策略

各个行业正在向数字化、智能化、场景化转型,金融企业走在了各行业的前列。金融行业的数字化体现在创新技术融合、数据化运营、精准营销、运营场景化等多方面。

金融企业的用户经营模式由“以产品为导向”的精准营销经营模式向“以用户为中心”的精准营销经营模式转型。用户经营的最终目的是为金融企业创造更高价值,带来更多的盈利。用户生命周期价值分层策略可以帮助金融企业梳理用户层级结构,并针对每个层级用户进行差异化经营,围绕用户进行数字化改造升级,实现用户价值最大化提升,提升企业的运营效率,打造数据驱动的营销闭环。

用户生命周期价值分层策略是什么?应该如何进行规划以及分析?

用户生命周期价值分层定义:

用户生命周期:是指从一个用户开始对企业进行了解或企业欲对某一用户进行开发开始,直到用户与企业的业务关系完全终止且与之相关的事宜完全处理完毕的这段时间;在业界广泛应用认可的用户生命周期方法论是AAARRR,是运营体系的经典的框架,贯穿用户感知、获取、激活、留存、交易、传播。

用户生命周期价值(Customer Lifetime Value,CLV):即用户具有的价值和生命周期,每个用户在生命周期中在历史、当前、未来为企业带来的收益总和。它由三部分构成:历史价值、当前价值和潜在价值。用户生命周期价值分层是围绕用户价值与生命周期视角对用户进行细分。

用户生命周期价值分层意义:

用户价值是企业发展在各个生命周期阶段都需始终关注重要内容。不管是在初创阶段的大量新客,还是成熟阶段的存量用户,企业的战略目标还是希望用户贡献更多的价值,为企业带来盈利。

通过用户生命周期价值的分层,促使“以产品为中心”的经营理念转为聚焦到“以用户为中心”(用户价值、用户需求、用户体验为中心)进行细分洞察。以产品为中心的时代,分析策略是通过产品找用户;而随着技术的创新,多维数据支撑更为广泛的用户洞察维度,经营的模式也逐渐改为通过用户找产品。用户生命周期价值分层策略,让企业运营人员清晰了解用户价值和价值指标;通过对每层人群进行筛选定义,制定差异化运营手段,促进用户在生命周期每个阶段产生最大化的价值,实现层到层之间价值的飞跃,并延长整个用户生命周期,完成运营的各个阶段的KPI指标以及企业的战略目标。

用户生命周期价值分层方法:

按照AAARRR方法论中用户生命周期的各个阶段节点,结合各阶段的业务场景、业态、战略方向等情况确定各阶段用户价值,进行交叉组合分层。但因各个行业不同、场景不同、用户价值不同、用户生命周期价值分层策略也会有所不同。已布局生活场景生态服务的银行信用卡,会通过用户活跃、用户粘性价值进行分层;证券公司的生命周期分层按照交易价值进行分层;中小银行生命周期价值分层策略按照投资价值进行分层。

  • 举个例子,某金融机构移动APP用户生命周期价值分层:
  • 市场用户(目前不是企业的人群)
  • 新增用户(首次触发APP的人群)
  • 留存用户(某段时间内在APP仍然还有交互行为的人群)
  • 价值用户(某段时间内在APP有交易行为的人群)
  • 高价值用户(某段时间内在APP有交易行为,并且交易金额大于30万或交易频次大于3次或交易产品种类大于2种的人群)
  • 鲸鱼用户(在高价值用户中通过任何触达手段为APP带来新增用户的人群)

用户生命周期价值分层是以用户生命周期为分层转化漏斗,将每个阶段的用户价值往下一阶段的用户价值转化引导,而每一层转化场景、分析维度、评估指标都是不同,需要制定差异化的运营手段分析每层转化,对不同阶段采取不同的策略,最终提升用户各个阶段的价值(如图所示)。

我们需要分析一下每各阶段是如何进行分析?每阶段精细化运营手段是什么?关注哪些指标?最终完成每阶段用户价值的飞跃。

感知层→获取层的转化

随着移动互联网流量红利结束,企业市场部门、渠道部门如在全渠道广撒网投放广告吸引新客,所带来的将是大量的非目标用户、导致企业耗费大量成本。企业在这样的市场环境下需要打破以往的思维模式,调整策略,将投放费用聚焦到目标用户上,通过精准投放来帮企业找到目标人群,提升转化率,降低成本。

制定精准投放策略,对投放渠道进行合理分配,找到转化率高的渠道,成为本层转化的关键。

  • 本层转化的运营手段:精准投放

每天用户通过线上(各类终端设备)与企业移动APP进行交互,用户呈现时间碎片化、服务场景化等特征。企业将如何抢占用户时间,成为企业关注核心问题。企业对将要投放的用户情况一无所知,精准投放从何开展呢?通过外部数据来洞察用户如用户的兴趣偏好、地理位置信息、线下消费偏好、金融偏好、媒体偏好等等,可以帮助企业找到精准目标人群、结合精准触达时间和产品,设计投放策略,将大大提升投放人群的质量以及转化率,帮助企业降低投放成本,提升ROI。

  • 本层转化关注核心指标:ROI,即投资回报率
  • 本层转化分析维度:

分析各个渠道的用户质量,除了分析各渠道交易数据如:转化率、转化金额、多次转化率、转化周期频率等指标外,还需洞察分析各渠道用户行为数据,如查看的产品、停留的时长、查看的频率等指标,这类行为数据虽不是直接的交易数据,但也表明用户是否有潜在的购买转化的意向。多维数据分析帮助企业找到质量好转化率高的渠道,并对各渠道投放的占比进行合理调整,从而促进ROI提升,完成本层用户价值提升。

获取层→活跃层的转化

在用户获取后,就需考虑如何对用户进行促活。据统计,新用户的营销成本要比老用户经营成本高出4倍,老用户的经营比新用户的获取要重要的多。尤其在企业已经获得大量用户后,如不及时运营老用户,会导致大量用户流失或沉睡。企业需要在此时进行运营干预,通过运营手段可减少流失人群、延长用户的生命周期以及活跃时长,并促使用户在更长的时间内创造更多的价值,提升用户的CLV。

  • 本层转化的运营手段:新手引导、营销激励

用户引流进入企业后,对新用户来说,平台、产品、流程都比较陌生,如果用户体验不好,不能及时适应平台,会导致用户流向其他同类型并满足用户需求的平台,故在这个节点需要建立新手引导,让用户对平台、对产品、对流程慢慢熟悉起来,养成用户操作习惯。但是仍将面对用户流失的风险,需及时对用户进行营销激励,如发放优惠政策、触发用户感兴趣的内容等从而激励用户活跃起来。

  • 本层转化关注的核心的指标:日活DAU、月活MAU
  • 本层分析维度:

本层关注的指标为活跃指标,如日活、月活,但在分析的过程中还需关注用户流失情况、留存情况。如在一段时间内,用户日活持续增加,需分析用户活跃类型占比,找到活跃增加的归因,是由于新增用户活跃,是老用户活跃;来自于哪些渠道的用户活跃,是由于新增的渠道质量较好,还是由于用户激励的方式。不仅要关注日活、月活,还需要拉长整个用户生命周期来看用户活跃、流失、留存等情况,分析在一段时间内新增的这些用户的流失情况以及留存情况,否则会被表面的日活增高的表象所蒙蔽。

活跃层→留存层的转化

用户持续留存代表此用户具有留下的意向以及潜在转化的可能,用户留存指标是监测用户流失的一个重要指标。实现用户留存的关键是需找到留存率较高的关键事件,并通过关键事件的引导提升客户的黏性。

  • 本层转化的运营手段:促留存策略
  • 本层转化的核心关注的指标:留存率(即次日留存、7日留存、14日留存、30日留存)
  • 本层转化分析维度:

需要关注的用户留存指标为次日留存、7日留存、14日留存、30留存。

分析时通常有两个维度:

1、以时间为维度:看不同时间的次日留存率、7日留存率、14日留存率、30留存率的指标情况,当观察到某一天的留存率比较高时,可详细洞察这在一天是否有“其它动作”,比如:新增某个渠道、做了某场活动、页面进行某部分改版、触达客户营销激励内容等,深入分析导致留存变化的“动作”对客户留存深层的数据影响。如新增加了某个渠道投放,可能是因为这个渠道的质量较好,用户比较活跃,潜在的目标人群较多,通过渠道的维度看这个渠道的行为数据指标表现情况,可适当调整投放的策略,增加此渠道的投放量。

2、以事件为维度:看执行了不同事件的人群次日留存率、7日留存率、14日留存率、30留存率的指标情况,如给某用户做留存分析时,发现执行登录事件的人群的留存率比执行其他事件的人群留存率明显高一些,分析得出登录与客户留存成正比关系,建议企业推出登录签到送积分活动,来提升用户留存率,效果会比较显著。

留存层→交易层的转化

运营的最终目标就是促使用户进行交易,给企业带来商业收入,体现产品变现能力。交易额=流量*交易转化率*客单价,从公式可以看出,增加流量、提升交易转化率将提升交易额,流量在感知层→获客层已经有详细讲解,客单价是受到产品定位、市场行情、产品内容等多方面的影响,需要重点聚焦到交易转化率的提升。

  • 本层转化运营手段:精准营销、聚类算法促转化、搭建MOT营销规则
  • 本层转化关注核心指标:交易转化率
  • 本层分析方法维度:

精准营销

精准营销的本质就是通过数据洞察找到目标人群、分析出用户特征偏好和产品偏好,在合适的时间以用户最容易转化的渠道进行触达。企业需要搭建营销闭环来解决营销效率问题,提升用户的交易转化以及收入的增长。精准营销闭环可分为四个步骤,人群洞察、消费者互动、监测效果量化、分析优化,并且不断优化形成营销闭环。

 

1、人群洞察

这是精准营销必不可少的关键环节,通过人群洞察来分析用户的行为特征、兴趣偏好、产品偏好等特征,利用全维度数据分析找到不同特征人群对应喜好的产品偏好,将洞察结果与营销建立关联,为后期营销触达做数据支撑。

2、消费者互动

人群洞察后,需对本层人群触达的手段进行分析,即用户交互方式的偏好(用户习惯、喜好的渠道和时间段),渠道是与用户交流的载体,帮助企业与用户搭建沟通的桥梁,需要找到用户喜欢的渠道以及转化高的触达方式,在合适的时间提供用户喜欢的内容,提升用户转化率。

3、监测效果量化

通过数据回传,对每次精准营销的数据进行记录,为后期数据分析、建模等工作积累数据,进行营销工作的优化。

4、分析优化

针对营销效果数据,分析每次精准营销转化人数、转化金额、转化后的行为数据、转化时间等,通过数据分析结果确定本次精准营销存在的问题,提出后期优化策略,不断迭代优化方案。将优化后的策略在下次营销中进行应用,形成营销闭环,提升用户交易转化率以及用户价值。

聚类算法

在每层用户分析中,对本层人群进行人群细分和数据交叉分析,找到细分人群的特征,制定精准营销策略,提升用户转化率。聚类算法可科学有效地帮助企业完成人群细分。数据分析师对数据进行整理,确定人群细分的数量,聚类算法可将相似的人群聚为一类,最终输出几类人群。对细分人群进行特征提取,洞察每类人群偏好特征,从而针对不同人群制定差异化的营销策略,提升用户价值。

营销规则

搭建营销规则,建立MOT逻辑规则,实现自动化运营,促进用户提升交易转化率。

用户的交易数据、行为数据、公开市场数据等多元化数据都可以作为基础分析数据,挖掘数据价值,结合业务场景设计营销规则。当用户触发某规则时,进行实时触达,利用营销活动对用户进行转化。例如用户频繁查看某个产品,停留时间较长但未进行交易,但此类数据分析也能说明用户对此产品具有潜在需求,可以依据此场景建立规则(在三天内,查看产品A 3次以上,可以定义为产品A的意向用户,符合此规则后,MOT将自动触发有关产品A的营销内容,刺激用户进行交易转化)。

交易层-高价值层的转化

本层人群是企业最核心用户,参考二八法则,20%的核心用户给企业贡献80%的价值,这类高价值的核心用户是企业关注的重点。如何引导、刺激用户向更高的价值转变是本层的关键。

  • 本层转化关注最核心指标:交易频次、交易金额、交易产品类型
  • 本层转化人群的运营手段:交叉销售、Lookalike算法挖掘潜在高值人群
  • 本层转化分析维度

交叉销售

通过多样化的运营手段,将提升交易频次、交易金额、交易产品类型的提升作为本层目标。通过交叉销售分析、找到用户购买产品A与产品X的关联,将强关联产品X在相应产品A的购买流程或页面进行展示,通过相互导流实现对产品X的销售,给企业创造更大价值。根据产品购买频率、产品到期的时间建立营销规则,提前引导用户进行复购操作,防止用户流失,提升用户价值。

Lookalike算法挖掘潜在高价值用户

潜在高价值用户挖掘可借助模型算法预测潜在高价值的人群,并实施精准营销策略。Lookalike算法是机器学习的一种模型算法,TalkingData利用移动APP行为数据对其进行优化,使其适合利用APP行为数据进行学习,相对其他算法具有较高对效率和准确率。在本层中,将企业交易层用户中挑选出的高价值人群(如多次交易、交易金额较大、交易频次高、交易产品种类多等)作为机器学习的种子人群,通过Lookalike算法找到潜在高价值用户。全面洞察分析潜在高价值人群的兴趣偏好、产品偏好、渠道偏好等,输出精准营销策略并触达用户,通过基于效果反馈的营销闭环提升用户交易转化。

案例

某银行运营目标:提升存款用户价值,实现存款用户活跃并挖掘潜在用户的价值。

某银行聚焦到银行存款存量用户经营,为了提升存款用户价值,通过用户价值分层方法将某银行存款用户进行了分层(如图所示),将每层的用户聚焦到特定的场景进行分析,提升存款用户分析的效率,洞察每层用户的特征,找到每层之间的漏损人群、潜在人群,更加科学、有效制定差异化的运营方案。建立用户价值分层体系方法论,将用户分层、用户洞察、制定方案、执行落地、效果评估及迭代优化整套运营方法论闭环跑通,并广泛应用到其它项目中,帮助某银行通过数据化思维驱动业务决策,推动在数字化、智能化的转型。

  • 存款脱落人群

是存量用户整体到存款有效用户之间的存款脱落人群。这层人群分析研究时,主要目标是洞察分析人群特征,制定有针对性的营销激励策略,将此人群通过激励转变为有效用户。营销激励策略围绕如何使脱落用户再次进行存款业务的场景而制定。

  • 存款流失用户

存款流失用户,搭建流失用户预警机制、流失用户挽回策略。分析流失与哪些关键因子关联,针对流失人群进行划分,确定流失人群的类型,对不同类型的流失用户策划具有针对性的挽回机制,并制定不同的触达方式对流失用户进行挽回。如下图所示,在某银行数据分析用户流失与登录、资产情况、提现行为有强相关,故将登录、资产情况以及提现作为分群关键因子,并进行设定不同策略机制。

 

  • 潜在价值用户

潜在价值用户是存款活跃用户,虽然在近半年未投资,但此人群在企业APP有交互的行为,通过此交互数据分析挖掘潜在的需求及动机,将APP上的交互行为、之前的历史交易数据、外部数据作为模型输入的因子,输出客户潜在需求,实施精准营销。

  • 潜在高价值用户挖掘

潜在高价值用户为企业创造价值,需要通过运营手段激发更大的价值,有几个增加价值的维度:

1、金额维度:刺激用户提升购买的金额,创造更大的价值;

2、时间维度:建立策略延长用户购买时长,提升用户生命周期;

3、种类维度:购买多类型产品,提升用户价值。

进行用户价值分层需注重用户需求、用户价值。制定场景化、差异化、定制化的策略,提升在整个价值链路上的转化漏斗,实现从数据驱动战略目标到用户经营的精细化运营闭环,实现层到层之间价值最大化提升,帮助企业有效延长用户生命周期,激发用户创造更大的价值。

活动回顾|《数驱•营销闭环 助力品牌增长》全国巡演广州站

沙龙现场,认真聆听的参会同学们

5月29日,TalkingData在广州成功举办了《数驱·营销闭环 助力品牌增长》全国巡演第二站营销主题的线下沙龙。为了帮助广州站营销圈内人,解决每一阶段遇到的广告营销问题,TalkingData诚意邀请到TalkingData华南区数据营销业务负责人 叶凯文 TalkingData数据分析高级总监 王鹏加和信息科技副总裁 Jimmy Liang腾讯社交广告/大客户方案运营中心/3C行业策划经理 黄倚圣为大家分享营销案例和经验。现在,我们一起回顾下在本次沙龙中嘉宾们分享了哪些营销干货。

01《TalkingData-2017移动广告行业报告》

分享人:TalkingData华南区数据营销业务负责人 叶凯文

 

1.点击量增速远超激活,虚假点击刷量严重

2017年,移动效果广告点击总量相比2016年增长超过17倍,其中iOS平台点击量同比增长1776.2%,安卓平台点击量同比增长366.2%。2017年移动效果广告推广激活总量同比增长41.9%,其中iOS平台同比增长17.1%,安卓平台同比增长123.2%。点击量增速远超激活,利用虚假点击刷量情况不容忽视。

2.模型识别作弊流量,帮助广告主节省经费

2017年,在全平台点击量井喷式增长的情况下,8月底上线防作弊模型后,经模型识别,系统累计拦截超2千亿次无效点击,约减少2亿次撞库可能产生的推广激活,为广告主节省约20~30亿元推广费用。

在防作弊模型作用下,iOS平台移动效果广告有效点击量呈增长态势,下半年有效点击总量相比上半年增长144.9%。而安卓平台移动效果广告有效点击量则呈现较为稳定的态势,下半年有效点击总量与上半年相比下降1.7%,上下半年数据基本持平。

3.Brand Growth平台助力品牌广告监测

2018年,TalkingData将重磅推出品牌广告监测产品 BrandGrowth,利用移动端数据的可追踪性及持续性,实现品效联动,帮助广告主进行媒介计划制定、广告监测及营销效果评估,贯穿品牌营销全链路,助力品牌价值增长。

02《数据助力营销 闭环驱动增长》

分享人:TalkingData数据分析高级总监 王鹏

TalkingData数据分析高级总监 王鹏把本次分享内容分为4个模块:

1.势:数据洞察行业趋势;

2.道:厘清营销模式流程;

3.术:数据构建营销策略;

4.器:产品助力营销闭环。

我们在本篇中带大家主要回顾第4部分。

完整分享内容,扫描文末直播二维码。

1.术——数据构建营销策略

王鹏把在数据构建营销策划环节,拆分成:产品定位用户研究、数据助力策略制定、灵活通联数据准备、闭环监测效果优化这4个闭环模块。

  • 需求分析–产品定位及用户研究

王鹏根据以往的汽车和游戏案例具体阐述了,真正明智的广告主是不会自定义客户的样子,而是应该从数据的角度去定义。TalkingData的海量数据可支撑广告主全面深度研究用户,助力广告主挖掘用户特征和产品趋势,优化广告主公司业务,持续保持行业领先位置。

  •  投放策略–多维数据助力策略制定

在以往投放策略里,通常我们只能考虑一些简单的像人口属性、区域等这样的维度。但是现在,可用更多维度,做投放策略支持。

  • 数据准备–灵活联通,定向筛选,多维组合

营销策略和数据准备是可以通过TalkingData的TDID打通的,灵活使用种子人群数据和把线上线下数据进行融合,变通的结合客群研究和产品定位制定投放策略。在数据准备时可以从标签、终端属性、线上、线下、时间,这些维度去组合考虑。

  • 闭环监测–效果优化,分群分析

在策略投放完成后,可通过TalkingData的Ad Tracking进行效果监测。广告主可通过广告监测对投放效果和媒体质量进行评估,媒体可通过广告监测做实时结算依据。

03《构建开放的大数据营销生态圈》

分享人:加和信息科技副总裁 Jimmy Liang

Jimmy认为目前在整个数据行业里,数据并不少,而是非常多。即使这样,很多广告主还是面临“看见很多数据,但它们是割裂的,数据数量很大,但没办法流动起来”这样的一个问题。在本次分享中Jimmy表示此前通过清晰的数据,可以更好的掌握营销。但在互联网时代,很多原有的评估指标变得不太确定。根据与客户交流、沟通和多年从业经验,Jimmy总结出品牌需要更开放、更灵活和更安全的智能营销解决方案。

更多营销观点和案例分享,扫描文末直播二维码。

04《智能营销 始终于人》

分享人:腾讯社交广告3C行业策划经理 黄倚圣

在本次沙龙中腾讯社交广告3C行业策划经理 黄倚圣,为现场同学分享了数据如何在投放环节中应用、结合数据如何在投放各个环节中融入创意并对其整合等经验。黄倚圣还分享了大量数据在投放环节的实战案例,给大家以后投放作为参考。了解实战案例,扫描下方直播二维码。

观看完整沙龙视频:

https://link.zhihu.com/?target=https%3A//lnk0.com/V9MdE1

————-TalkingData数据服务介绍———

基于营销闭环,TalkingData有以下数据产品服务能力,帮助客户从业务角度解决问题。

  • 数据市场–SDMK

用数据帮助传统企业转型升级为数据驱动型企业。详细了解,请点击阅读

  • 智能营销云–SMC

依托于TalkingData强大数据源和TD数据市场的互联数据,从目标客群寻找、客群特征洞察、营销流量连接触达,到营销效果监测并学习提升的一体化数据营销闭环平台。详细了解,请点击阅读

  • 移动广告监测–Ad Tracking

量化移动广告推广效果,聪明的使用每一分钱。详细了解,点击阅读

  • 品牌增长分析–BrandGroth

一款基于大数据贯穿品牌营销全链路助力品牌价值增长的产品,除了效果转化外,更能看到广告主品牌美誉度的提升。详细了解,请点击阅读

TalkingData联合Kaggle建立中国数据集专区

近日,TalkingData与国际领先的竞赛平台与数据科学家社区Kaggle达成战略合作,联合在Kaggle网站上发布中国数据集专区。此次合作旨在为Kaggle已有的庞大数据集资源池加入更多有价值的中国数据,通过开放独一无二的中国移动互联网脱敏数据集和真实商业场景,与全球超过50万名数据科学家合作、交流、同台竞技。这对于全球数据科学爱好者来说是一个了解中国用户的契机。未来,在全球各地对数据挖掘感兴趣的工程师热情参与下,将能够为全球数以百万计的开发者提供更为有效的数据服务。
 

TalkingData成立近七年,为超过12万款移动应用,以及10万应用开发者提供服务,同时服务于金融地产快消零售出行政府等行业中的领军企业,拥有强势技术能力及丰富行业经验,。

依托于优质海量数据,TalkingData希望此次合作能够帮助全球数据科学家构建更准确的预测模型,借助先进的机器学习和深度学习技术实现更高效的数据分析。也希望借助Kaggle这个开放的平台将脱敏数据共享给全世界最优秀的数据科学家,让他们用最聪明的办法解决最有挑战性的问题。

TalkingData CEO崔晓波认为“数据是链接中美智能应用的桥梁”。近两年来,TalkingData团队与Kaggle已共同举办了两场活动,为此次深度合作奠定了基础。

2016年7月,TalkingData首次将Kaggle算法大赛引入中国,开放部分脱敏后的中国移动互联网用户行为数据集给全球热衷数据科学的挑战者,进行用户人口属性模型预测。历时2个月的大赛吸引了来自全球70多个国家和地区的2600个团队参赛,创下了当时Kaggle单个竞赛参与人数的新纪录。

2018年3月,TalkingData 再一次联合 Kaggle 共同发起 TalkingData 全球广告反欺诈算法大赛。此次比赛提供与中国广告反欺诈相关的独特应用场景与脱敏数据集,来自全球91个国家和地区的3967支队伍报名参赛,在参赛人数上再创新高,体现了全球数据科学家对基于中国行业数据集探索和解决实际问题的兴趣。

此外,前三名获奖团队中有两支团队来自中国,可见也有越来越多的中国数据科学家参与到国际性竞赛中来,切磋技艺寻求挑战。此次大赛为广告反欺诈提供了诸多新思路和新方法,也为国内广告行业的健康发展带来了驱动力。

打造中国的“湾区”需要几步?

大家都知道美国有个硅谷,而硅谷就位于旧金山湾区(The Bay Area)。旧金山湾区是全球最重要的高科技研发中心,还是美国西海岸最重要的金融中心,拥有众多世界500强企业。

“湾区”是一种重要的滨海经济形态,它们以开放、创新、国际化为特征,成为国际经济和科技网络中的重要节点。

2017年人大政府报告中提出,要推动内地与港澳深化合作,研究制定“粤港澳大湾区”城市群发展规划。

“粤港澳大湾区”,包括广州、深圳等广东省9市以及香港、澳门两个特别行政区。这不算是一个新概念,从30年前改革开放初期,到香港澳门回归,粤港澳间一直在向着携手前进的方向发展。

显然,粤港澳大湾区已经具有天然的地理位置基础,再加上香港这个金融中心和深圳这个科技创新中心,“粤港澳大湾区”的提出顺理成章。

2017年7月1日,在习主席的见证下,国家发展和改革委员会、广东省政府、香港特别行政区政府与澳门特别行政区政府共同签署了《深化粤港澳合作 推进大湾区建设框架协议》。

政策的地基已经打好,一切蓄势待发。但是,真正想把“粤港澳大湾区”打造成中国的“旧金山湾区”,要克服的困难还有很多。

这是一个非常重要且充满潜力的话题。5月27日在贵阳数博会上举办了“粤港澳大湾区暨国际分论坛”。来自粤港澳与贵阳的政府高层与行业专家,深入聊了聊建设“粤港澳大湾区”所面对的问题以及应该做什么。

香港特别行政区政府财政司司长陈茂波与贵州省人民政府副省长卢雍政在致辞中都表示,两地政府非常重视大数据战略与应用,并且认为大数据将在粤港澳大湾区的未来发展中扮演关键角色。

那从大数据行业的角度,能为建设粤港澳大湾区提供怎样的动力?又该如何去做?

分论坛的圆桌论坛环节上,来自政府、学会、行业协会和企业四方的代表,分别提出了他们的建议。

他们是香港特别行政区政府资讯科技总监杨德斌、中国信息安全研究院副院长左晓栋、全国人大代表&华人大数据学会执行主席洪为民、深圳市信息行业协会秘书长陈一木、京东金融副总裁&首席数据科学家郑宇、TalkingData首席执行官崔晓波。

信息孤岛带来的痛点

粤港澳大湾区内存在两种体制、三种法制,这是无法回避的现状。实现粤港澳的区域一体化,首先需要跨越制度的不同,关键是实现粤港澳间的信息互通。

杨德斌:无论是香港、澳门人到内地,还是内地人去香港、澳门,是否能够和在本地一样便捷的办事。这就是信息流通的问题,需要在整体规划中提出来,用一些行政手段去解决。

陈一木:虽然现在深圳到香港通关已经方便很多,但遇到高峰还是非常耗时。如果能打通数据,根据两边关口的人流量动态协调过关时间,能够更便民。

左晓栋:现在内地已经习惯了微信、支付宝这样的移动支付,但在香港澳门还不太普及。这涉及外汇管理的问题,但是本质上还是金融数据没有互通的问题,信息流通不起来就无法实现区域一体化。

崔晓波:关键还是身份体系的打通,这是下一步金融、交通等体系打通的基础。现在已经有企业在推广E-ID(电子身份)的概念,希望可以从政府政策层面在大湾区落地。

洪为民:现在各地间存在着信息孤岛,需要联合打造一个大数据共享平台,通过制定相应标准和数据脱敏,将各渠道的数据共享出来。数据只有共享才能产生更大的价值。

打通数据、共享价值,才能实现真正的政策通、人通、钱通、一体化道路通。

要开放共享也要安全

数据共享是现实需求,但数据安全也是现实障碍。要有可信并合规的模式,来打通阻隔开数据的门。技术,是打开这扇门的钥匙。

杨德斌:香港特别行政区行政长官林在去年的司政报告提出8个方向,其中一个就是开放数据。目前香港的开放数据政策已经在内部讨论中,年终即将公布。

左晓栋:各领域的数据开放,尤其是政府数据开放,安全是基本。由国家发改委牵头的政府数据开放安全解决方案一直在研究中。大湾区数据共享和流动是实现有赖于政策的制定和执行,也有赖于技术的进步。

崔晓波:解决数据安全共享的问题,只能靠技术解决。现在已经出现了通过联合建模算法,来解决数据分享问题的方案。TalkingData目前正与MIT合作研发一种叫OPAL(Open Algorithm)的技术框架,不数据流动,只流动算法,来保障数据安全。

郑宇:政策可以制定,技术也有解决方案,最后的落地还是要看人,需要人具备相关的理念和素质。数据打通是很重要的事情,人才的联合培养要先做起来。

数据共享的关键在于安全,有了安全可信合规的共享机制,才能真正实现数据的开放共享。

外引内流聚集人才

人,是政策的执行和落地者,也是最终的应用者和受益者。想从数据中获益,首先要拥抱数据的思维;想用数据赋能粤港澳大湾区,首先要建立数据人才队伍。

崔晓波:中国的数据人才非常稀缺。通过我们对硅谷最大的数据科学社区的调研,国内能够写算法做模型的专业数据科学人才数量与国际有100倍的差距。中国拥有世界上最好的数据资源,美国拥有最强大的人才社区,可以结合起来。

郑宇:培养大数据人才,重点是培养懂工作机制、懂业务场景的复合型人才。这样的人才不能只在学校上课、只靠传统教授教的知识来培养,而需要学校与企业合作,在教育中融合真实案例和数据。

陈一木:香港拥有顶尖高校与人才资源,而深圳拥有创新企业与人才发展平台,希望深港两地能建立起人才互通机制。

崔晓波:我们也创立了针对性引进优秀留学生“梧桐计划”,为海外顶级高校的中国学生提供职前培训和实习期,让他们了解和感受国内发展情况和企业就业情况。目前参与计划的人留在国内工作的比例很高。

没有人,再好的想法也无法落地。想要填平数据人才的“洼地”,除了要促进区域内的人才培养与流通,还要积极引入海外人才,聚集全球化的智慧与视野。

智慧城市以人为本

数据是连接大湾区的桥梁,智慧城市是建设大湾区的图景。TalkingData首席执行官在“粤港澳大湾区暨国际分论坛”也分享了对构建智慧城市的思考。

崔晓波:

数据不是冷冰冰的,而是与人、与生活密切相关的,我们称之为——人本数据。

由于数据体量与计算力的变化,我们看世界的角度从实体物质化变为数据虚拟化。无论是AlphaGo还是无人车,大数据与人工智能将让未来研究所有问题的方法都变得虚拟化。

大湾区的人口密集度和人口流动性都比较高,在区域一体化的建设中,需要借助数据去改造城市、惠及民生。

分享一个案例。我们借助机器学习算法对北京市不同收入人群的生活轨迹进行了分析,用数据证明了不同收入人群即使处于同一时空也很少有重叠和交互——即曾受热议的“城市折叠”理论。这为城市规划提供了重要参考,要从规划角度为不同人群创造交互的条件,这样才能让城市更有活力。

人本数据不仅可以应用在社区的规划上,也可以应用在政府管理上。例如我们通过与国家统计局合作构建的数据模型,整合15种数据源,对京津冀地区与大湾区之间的人口流动做了动态分析,体现政策变化、节假日等各种因素对人流量的影响,可以帮助政府建立实时动态的响应机制。

只观察人的行为是远远不够的,我们更关注人的心智,关注人的行为模型背后的心理特征。未来,对人的研究也会从物理化走向虚拟化。

大数据要取之于民而用之于民,这样才能构建起人为本的智慧社会。

基于Spark、NoSQL的实时数据处理实践

本文基于TalkingData 张学敏 在公司内部KOL的分享主题《基于Spark、NoSQL实时数据处理实践》的整理,同时也在DTCC大会上做了同主题的分享。

主要介绍了项目的技术选型技术架构,重点介绍下项目面临的挑战和解决办法,还介绍了面对多维度多值多版本等业务场景时,使用BitmapHBase特性解决问题方法。

共分为上下两篇,本次发布上篇,下篇敬请关注。

一、数据相关情况

项目处理的数据主要来源于TalkingData的三条SASS业务线,他们主要是为移动应用开发者提供应用的统计分析、游戏运营分析以及广告监测等能力。开发者使用TD的SDK将各种事件数据发送过来,然后再通过SASS平台使用数据。

数据主要都和智能设备相关,包含的数据内容主要可以分为三部分,一部分是设备信息类,主要包括设备ID,比如Mac、IDFA等,还有设备的软硬件信息,比如操作系统版本号,屏幕分辨率等。另一部分是业务相关信息类,主要包括业务事件,会话信息,还有行为状态。关于行为状态,是我们在智能设备上使用算法推测终端持有者的行为状态信息,比如静止、行走、奔跑、乘车等。第三部分是上下文信息,包括设备连接网络的情况,使用的是蜂窝网络还是WiFi等,还有设备位置相关的信息,以及其他传感器相关的数据等。

关于设备体量,目前设备日活月活分别在2.5亿和6.5亿以上,每天的事件数在370亿左右,一天数据的存储量是在17T左右。

上图为整体的数据架构图,数据流向是自下往上。数据采集层使用的是TalkingData自研的SDK,通过SDK将数据发往数据收集层。数据收集层使用的是TalkingData自研的DataCollector,Collector会将数据发送到数据接入层的Kafka。每个业务线都有自己的Kafka集群,在Collector可以控制数据的流向,大多数据都是业务线一份,数据中心一份。数据处理层有两部分,一部分是使用Spark core或sql的离线计算。其中Spark是on yarn模式,使用yarn进行资源管理,中间通过Alluxio进行加速,使用Jenkins进行作业管理和调度,主要负责为业务方提供数据集和数据服务。

另一部分是使用Spark Streaming的实时计算,主要是为TalkingData管理层提供运营数据报表。数据存储层,主要功能是存放数据处理后的结果,使用分布式文件系统HDFS、Alluxio存放数据集,使用分布式数据库HBase、ScyllaDB,关系型数据库MySQL以及MPP型数据库GreenPlum存放服务相关的数据。数据应用层东西就比较多了,有供TalkingData内部使用的数据分析、探索平台,也有对外内外都可的数据服务、数据模型商城,以及智能营销云、观象台等。

二、项目面临的业务诉求

主要的可总结为四部分:

  • 首先是数据修正:离线计算是将数据存放在了HDFS上,如果数据有延迟,比如事件时间是昨天的数据今天才到,那么数据将会被错误的存放在今天的时间分区内。因为HDFS不支持随机读写,也不好预测数据会延迟多久,所以在离线计算想要完全修正这些数据,成本还是比较高的。
  • 其次是时序数据需求:之前的业务都是以小时、天、周、月等时间周期,面向时间断面  的宏观数据分析,随着公司业务扩展,比如营销、风控等行业,面向个体的微观数据分析的需求越来越多,所以需要能够低成本的把一个设备的相关的数据都取出来做分析。而面向时间断面的数据每天十几T,想从中抽出某些设备近1个月的数据就会涉及到500多T的数据。所以需要建立时序数据处理、查询的能力,能方便的获取设备历史上所有数据。
  • 第三是实时处理:离线计算少则延迟一个小时,多则一天或者更久,而有些行业对数据时效性要求是比较高的,比如金融、风控等业务,所以需要实时数据处理。同时,为了更多的丰富设备位置相关数据,我们还建立了WiFi、基站等实体的位置库,所以在实时数据处理时,需要实时读取这些库为那些连接了WiFi、基站但没位置数据的设备补充位置相关信息。
  • 第四是实时查询,这里描述的是面向实体、多维度、多值、多版本,接下来我详细介绍下。

我们将事件数据抽象出了各种实体,比如设备、位置、WiFi基站等实体,其中位置实体可以使用GeoHash或者网格表达。每个实体都有唯一ID以及多个维度信息,以设备实体为例,包括ID、软硬件信息等维度。单个维度又可能会包含多个值,比如WiFi,在家我连接的是WiFi1,到公司链接的是WiFi2,所以WiFi维度有WiFi1和WiFi2两个值。单个值又可能有多个时间版本,比如我在家连接WiFi1可能6点被捕获到一次,7点被捕获到两次。所以,最终建立可以通过指定实体ID,查询维度、列及时间窗口获取数据的能力。

三、技术选型和架构

数据接入层我们选择的是Kafka,Kafka在大数据技术圈里出镜率还是比较高的。Kafka是LinkedIn在2011年开源的,创建初衷是解决系统间消息传递的问题。传统消息系统有两种模型,一种是队列模型,一种是订阅发布模型。两者各有优缺,比如队列模型的消息系统可以支持多个客户端同时消费不同的数据,也就是可以很方便的扩展消费端的能力,但订阅发布模型就不好扩展,因为它是使用的广播模式。另一个就是,队列模型的消息只能被消费一次,一旦一个消息被某个消费者处理了,其他消费者将不能消费到该消息,而发布订阅模型同一消息可以被所有消费者消费到。Kafka使用Topic分类数据,一个Topic类似一个消息队列。Kafka还有个概念,叫consumer group,一个group里可以有多个消费者,同一个topic可以被一个group内的多个消费者同时消费不同的消息,也就是类似队列模型可以方便的扩展消费端能力。一个Topic也可以被多个group消费,group之间相互没有影响,也就是类似发布订阅模型,Topic中的一条消息可以被消费多次。所以Kafka等于说是使用Topic和Consumer group等概念,将队列模型和订阅发布模型的优势都糅合了进来。

现在Kafka官方将Kafka的介绍做了调整,不再满足大家简单的将其定位为消息队列,新的介绍描述是:可以被用来创建实时数据管道和流式应用,且具有可扩展、高容错,高吞吐等优势。另外,经过7年的发展,kafka也比较成熟了,与周边其他组件可以很方便的集成。但目前也有两个比较明显的劣势,一个是不能保证Topic级别的数据有序,另一个是开源的管理工具不够完善。

Spark现在听起来不像前几年那么性感了,但因为我们离线计算使用的Spark,有一定的技术积累,所以上手比较快。另外,Spark Streaming并不是真正意义上的流式处理,而是微批,相比Storm、Flink延迟还是比较高的,但目前也能完全满足业务需求,另外,为了技术统一,资源管理和调度统一,所以我们最终选用了Spark Streaming。

Spark Streaming是Spark核心API的扩展,可实现高扩展、高吞吐、高容错的实时流数据处理应用。支持从Kafka、Flum、HDFS、S3等多种数据源获取数据,并根据一定的时间间隔拆分成一批批的数据,然后可以使用map、reduce、join、window等高级函数或者使用SQL进行复杂的数据处理,最终得到处理后的一批批结果数据,其还可以方便的将处理结果存放到文件系统、数据库或者仪表盘,功能还是很完善的。

Spark Streaming将处理的数据流抽象为Dstream,DStream本质上表示RDD的序列,所以任何对DStream的操作都会转变为对底层RDD的操作。

HBase是以分布式文件系统HDSF为底层存储的分布式列式数据库,它是对Google BigTable开源的实现,主要解决超大规模数据集的实时读写、随机访问的问题,并且具有可扩展、高吞吐、高容错等优点。HBase这些优点取决于其架构和数据结构的设计,他的数据写入并不是直接写入文件,当然HDFS不支持随机写入,而是先写入被称作MemStore的内存,然后再异步刷写至HDFS,等于是将随机写入转换成了顺序写,所以大多时候写入速度高并且很稳定。

而读数据快,是使用字典有序的主键RowKey通过Zookeeper先定位到数据可能所在的RegionServer,然后先查找RegionServer的读缓存BlockCache,如果没找到会再查MemStore,只有这两个地方都找不到时,才会加载HDFS中的内容,但因为其使用了LSM树型结构,所以读取耗时一般也不长。还有就是,HBase还可以使用布隆过滤器通过判存提高查询速度。

HBase的数据模型也很有意思,跟关系型数据库类似,也有表的概念,也是有行有列的二维表。和关系型数据库不一样一个地方是他有ColumnFamily的概念,并且一个ColumnFamily下可以有很多个列,这些列在建表时不用声明,而是在写入数据时确定,也就是所谓的Free Schema。

HBase的缺点一个是运维成本相对较高,像compact、split、flush等问题处理起来都是比较棘手的,都需要不定期的投入时间做调优。还有个缺点是延迟不稳定,影响原因除了其copmact、flush外还有JVM的GC以及缓存命中情况。

ScyllaDB算是个新秀,可以与Cassandra对比了解,其实它就是用C++重写的Cassandra,客户端完全与Cassandra兼容,其官网Benchmark对标的也是Cassandra,性能有10倍以上的提升,单节点也可以每秒可以处理100万TPS,整体性能还是比较喜人的。与HBase、Cassandra一样也有可扩展、高吞吐、高容错的特点,另外他的延迟也比较低,并且比较稳定。

他和Cassandra与HBase都可以以做到CAP理论里的P,即保证分区容忍性,也就是在某个或者某些节点出现网络故障或者系统故障时候,不会影响到整个DataBase的使用。而他俩与HBase不一样的一个地方在于分区容忍性包证的情况下,一致性与高可用的取舍,也就是CAP理论里,在P一定时C与A的选择。HBase选择的是C,即强一致性,比如在region failover 及后续工作完成前,涉及的region的数据是不能读取的,而ScyllaDB、Cassandra选择的A,即高可用的,但有些情况下数据可能会不一致。所以,选型时需要根据业务场景来定。

ScyllaDB的劣势也比较明显,就是项目比较新,Bug和使用的坑比较多, 我在这里就不一一去说了。

前面分别简单介绍了选定的技术组件,及他们的优缺点,最终项目整体架构如上图所示,数据流向用灰色箭头代表,数据采集和收集都与离线计算一样,不同的是在Spark Streaming从Kafka消费数据时,会同时实时从ScyllaDB读取wifi、基站定位库的数据参与位置补充的计算,然后将处理的结果数据写入HBase。再往下类似Lambda架构,会对HBase中的数据离线做进一步的处理,然后再将数据离线通过Bulkload方式写入HBase,关于其中的Bitmap应用,后边再聊。

架构右边部分是服务相关的,首先是中间件,主要屏蔽了异构数据库对应用层服务的影响,再往上是规则引擎服务,因为我们上线在SDMK的应用服务有100多个,导致服务管理成本很高,并且也不利于物理资源的合理运用,所以上线了规则引擎服务,将所有服务的业务逻辑都通过规则表达,这样上线新服务就不需要重新申请服务器,只需要添加一条规则即可。等于是就将一百多个服务转换成了一个服务,当规则引擎负载较高时或者大幅降低后,可以很方便的进行资源的扩充和减少。SDMK是TalkingData研发的类似淘宝的交易平台,公司内、外的数据服务、数据模型都可以像商品一样在上面进行售卖。

DT数据侠专访崔晓波丨数据“独角兽”是怎样炼成的?

崔晓波简介

崔晓波毕业于南开大学,曾先后担任BEA亚太区电信技术中心总监和Oracle大中国区A&C技术总监。2011年,创立了TalkingData,将“数据改变企业决策,数据改善人类生活”作为公司愿景,践行“一切用数据说话”的原则,通过数据帮助客户实现一切可实现的价值,成为客户信赖的长期合作伙伴。

2010年,崔晓波和几个朋友来到地坛公园,一边晒太阳,一边讨论“创业”的事儿。

在这次创业之前,他身份很多元:包括黑客、程序员、连续创业者、国企处长、技术总监等等;在此之后 ,崔晓波用了七年的时间探索数据科学的商业道路,并成功打造了一个基于移动大数据分析的“独角兽”公司。

代号为“CXB”的“病毒少年”

与很多数据科学家的起点一样,崔晓波的数据之路也是从学生时代的计算机生涯开始的。

1993年,崔晓波考入了南开大学信管专业。中国九十年代的计算机大多还处于英特尔286、386的芯片时代,操作系统还是原始的OS2、DOS等,漏洞和Bug很多。当时与操作系统最直接相关的就是病毒了。很多学生为了完善操作系统的缺陷,开始研究病毒,进行一些“病毒攻防战”,比如第一代大麻病毒、小球病毒、变性病毒等。

国内第一代的程序员们,大多都是从“病毒”做起,崔晓波也是其中之一。

(图片说明:崔晓波在北京办公室接受DT君专访)

崔晓波回忆说,当时在他们系里,一个计算机学生的最高荣誉,就是能够被选中去“管理机房”。当时机房的管理团队都是学校最一流的计算机高手,他们为了保护机房的电脑,设置了很多高级的加密算法,让普通学生无法实现修改、删除计算机文件等。

然而过了一段时间,机房的管理人员发现有人绕过了他们的保护,在系统里留下了一段“CXB”的字符,颇有“到此一游”的意思,这说明有人破解了机房的加密算法。“于是他们就不断提高自己的加密算法难度,我就不断接着去破解,这种攻防战是最费脑筋的,但是也最有意思”。崔晓波回忆起当年的“病毒”攻防生涯,依然津津乐道。

管理机房的同学发现每次升级,都无法阻止“CXB”这段字符出现在系统里。这个代号的实际意义并不难猜,很快,学长们就找到了崔晓波。凭借这个“病毒绝活”,他被邀请加入了机房的管理团队。

在大学里研究“病毒”的时候,崔晓波逐渐结识了王江民、求伯君、吴晓军等中国最早的一批著名程序员们。其中,王江民的江民公司曾经发布了KV系列等中国最早的杀毒软件,是中国计算机软件领域的先行者。

一个有意思的小插曲是,早在90年代,崔晓波曾经就使用了一个数据科学的模型方法,破解了一款当时号称“无法破解”的杀毒软件:江民KV3000。只不过当时,他还没有意识到自己使用的就是数据科学的方法。

“KV3000中设置了大量的反跟踪陷阱,的确非常复杂,很难破译。”崔晓波回忆说,当时KV3000出来后,四个月都没有出现盗版,足以说明其复杂性。后来,崔晓波使用了一个模型的方法,恰好可以绕开那些逻辑陷阱,成功地进行了破解。

“我每破解完一个软件,就会取一个名字。我当时把破解了的KV3000取名为KK13,几天之后我去逛街,发现有人说KV3000被破解了!我很兴奋,赶紧买了一个回来,结果看到名字是KK13。特别搞笑。”崔晓波笑着说。

由于在计算机系统上出色的表现,崔晓波刚毕业就被吴晓军(DT君注:晓军电脑创始人,其发明的2.13汉卡是中国最早的汉字系统之一。)挖到了一家国企任职。

为了“务实”而来,为了“理想”离开

九十年代末是中国第一波互联网浪潮兴起的原点。腾讯、阿里、新浪、网易等这些后来的互联网大佬多是从98、99年开始起家,打造自己的互联网商业帝国。

而在太平洋的另一岸,美国的互联网也在经历着历史上最明媚的春天。这也吸引了很多优秀的中国程序员前去学习深造,寻找机会。

毕业了的崔晓波当时并没有考虑太多这些所谓的大趋势,来自新疆的他想法很实在——得先能在北京站住脚。“所以我就问了吴晓军两个问题:能解决北京户口么?能解决住房么?吴晓军说可以,我就来到了这家国企。当时真的没有考虑太多,直到进来才发现,这是一个卖农药和化肥的农产品公司,和数据、互联网几乎没什么关系。”

在那家公司里,崔晓波更多是被看成一个“修电脑的”,而不是什么互联网人才,这让一直很要强的他产生了一种强烈“要做事”的冲动。

“我当时看到了电子商务的可能性,于是就给领导写了一个关于创办农资交易网可行性报告。”虽然没太明白他要做什么,但是领导还是对崔晓波的想法提出了精神上的鼓励,以及物质上的“不支持”——只可以用公司的名头。于是,崔晓波就只能开始全部自己来。他为了创办农资交易网站,写了人生第一份BP(商业计划书),然后找融资、谈担保、拉货源等等。“最后还真在网站上卖出了一吨化肥!”崔晓波兴奋地回忆说。

后来他还牵头做了中国彩票网、中国企业网、棉花的交易系统等项目,是地地道道的连续创业者。这些项目大多取得了不错的效果——二十多岁的他那时已经成为系统内最年轻的处长,处理过上千万的投资交易,管理过几家不同类型的公司,从某种角度来说,他已经取得了世俗意义上的成功。

但这时他心中“理想主义”火苗却又在跳动了,最终,崔晓波还是选择了离开。国企体制化的环境与互联网“野蛮生长”的基因有着天然的冲突——“我觉得我不能一辈子呆在国企。”

崔晓波的离职当时还引起了一阵审计风波,因为大家不相信会有人放弃这么好的工作环境和待遇,去做其他的事情。他回忆当初的情景时说到:“领导当时还打趣说:‘小崔你是不是经济上有问题,你要老实交代啊’。”其实他当时只是觉得互联网和数据能做更多的事情,而自己不该局限于此。

离开国企后,崔晓波自降2/3的薪水,来到BEA System软件公司从头开始,一路从底层的合同工做起,到正式员工、管理岗,最后做到总监。BEA在2008年被Oracle收购,崔晓波也顺理成章地进入了Oracle。

这段外企的工作经历让崔晓波对现代的经营企业有了更多的认识。用崔晓波的话说,BEA教会了他如何运营一个创业团队,在Oracle则领悟到了如何把业务做大的秘诀。

一转眼到了2010年,已经在IT届摸爬滚打多年的他,再次逐渐开始思考创业的可能性。

理想主义的选择

那时的崔晓波已经35岁了,是Oracle大中华区A&C部门技术总监,在外企过着光鲜平稳的金领生活。不过,这份平静很快就被一块叫做“数据”的石子打破,并在以后的时间里不断地在他的生命中泛起波澜。

关于这次脱产创业,崔晓波一开始并没有想太多。他从自己过往的经历中,觉得看到了一个未来可能的新趋势——数据,于是认为自己应该去做这件事儿。

他们在创业初期讨论的话题非常理想主义,甚至“不接地气”。不谈市场、不聊客户、不提需求等一切商业的基本元素,崔晓波每天就只思考一个问题:做数据到最后,究竟是在做什么?

这有点像创业者版本的“人生三问”(虽然简化成了一个问题):我是谁?我从哪里来?我要到哪里去?——在崔晓波创业初期, 这种终极的创业哲学问题是最让崔晓波最操心的事情。某种程度上,这源自于崔晓波自己性格中对于理想主义的偏好。

在崔晓波职业生涯的几次选择中,每当现实与内心想法产生冲突的时候,他总会选择“唯心”一把。从开始做数据到现在,他会经常说到一种“数据信仰”,几乎把这种唯心式偏好发挥到了极致。

不过,如果你把自己还原到2010年的场景中,你会自然地感觉这种天马行空讨论,并不会有什么结果。彼时,“数据科学”在国内还不是一种显学,没有多少人留意它;互联网世界还集中在Web端的流量争抢中,3Q大战激战正酣;Nokia的功能机依然在手机市场上独霸天下,占据着中国市场将近50%的市场份额。

但是程序员出身的崔晓波,让他在当时对数据行业做了两个非常“务实”的判断:第一,手机将不再只限于通话;第二,数据将在移动互联网端产生爆发。

数据“独角兽”

“2008年的时候,我曾经有一次加入腾讯的机会。Pony(马化腾)当时跟我说了一句话,我印象非常深,虽然那个时候腾讯还没有如今这么大的规模,但他坚信:腾讯未来将改变人们的通信方式。”

崔晓波深以为然。虽然听起来有点俗套,但他认为伟大的企业普遍都有一个宏远的愿景。他从“数据分析”这个核心商业点出发,最后为公司定下了两个愿景:数据改变企业决策,数据改善人类生活。他认为未来企业的决策方式一定会从“经验性地拍脑袋”,转变为“科学地看数据”,而且未来人类的生活,都将会因为数据而发生深刻的改变。

不过理想很丰满,现实却很骨感。在创业的几年中,为了应对不断变化的市场环境,崔晓波也带领着公司几度改变业务方向。

覆盖手机端的移动互联网大数据分析是崔晓波的起点。从最开始的数据分析工具、到后来企业级的定制化数据服务,再到聚焦于几个垂直行业,做数据产品(数据集、数据模型和数据应用)。如今,TalkingData的月活跃用户已经突破了7亿,服务超过12万款移动应用以及10万多应用开发者,如今已经成为国内领先的独立第三方数据智能服务商。

如果仅仅是做数据分析,崔晓波并不是最早的一批先行者。百度等一批手握流量的企业其实早就开始了这方面的业务探索,但是很多公司为了流量和短期的变现,逐渐将数据分析与营销、广告等业务打包在一起,很难发挥出数据分析的客观性价值。于是崔晓波决定从侧面切入——“专注地做数据”。不推销、不打包,坚持第三方独立,崔晓波选择的落脚点,为自己的业务积累下了一批批忠实客户和良好的业界口碑。

“刚开始有些客户不相信,但是他们观察了两年后,发现我们真是这样,只专注于数据这一件事儿,不参与其他推广活动。有些客户的业务,也真的因为引入了数据分析而实现了快速增长,例如游戏、金融等行业。”

后来,当业务高速发展的时候,他们也走过一些弯路,比如布局DSP广告。“我们花了很大的精力和财力投入到DSP(Demand-Side Platform,需求方平台)广告的业务上,希望帮助广告主优化广告效果,但是忙活了很久都没有什么效果。”崔晓波最后认识到,这是因为国内的广告流量数据被污染得非常严重,以至于无法进行有效分析预测。平台主并不希望让自己的流量公开透明,从而影响财路,这使得整个行业的保护主义盛行。这也让崔晓波意识到第三方平台的局限性——如果平台的数据不真实,那么流量分析就是没有价值的。

创业初期,崔晓波的公司基本模仿了BEA时期的创业模式,非常高效;后来随着规模的扩大,他逐渐将在Oracle时期学到的渠道管理方法,移植了进来,通过打造数据生态的方式,拓展自己的数据源,优化产品和服务。

到2017年底,在各大媒体评的报告中,他的公司以超过10亿美元的估值成长为国内数据分析领域领先的“独角兽”企业。

以人为本的数据科学

2016年AlphaGo与李世石的围棋大战,可以称得上是数据科学世界的里程碑事件。由于这次比赛后,AI(人工智能)话题开始发生井喷式的增长,正式引发了2017年全球的AI产业热潮。

作为业余围棋五段选手,崔晓波和聂卫平老先生一起解说了李世石与AlphaGo当年的第三场比赛。“看完第三场后的第一感受就是绝望”,崔晓波说,“人类最好的棋手,在AI面前一点机会都没有,AI一步都不会下错。”

(图片说明:AlphaGo大战李世乭;图片来源:纪录片《AlphaGo》电影截图)

崔晓波认为,AlphaGo当时所展示出的AI技能主要在三个方面:价值网络、策略网络和蒙特卡洛搜索树搜索,其中蒙特卡洛树搜索是这次AI浪潮的核心。但是经历了一年多的发展,AI在其他行业的应用,并没有向人展示出类似在围棋领域足够的震撼。崔晓波说;“AI的本质只有一个,就是帮人做决定,但是除了在特定的诸如围棋等领域,AI还不能够达到比人更好的决策水平。”

所以,与其研究AI如何帮人做决定,崔晓波认为当下更实际的是,不如利用数据科学研究“人”本身究竟是如何做决定的。他受到MIT的人类动力实验室的启发,在公司成立了一个“人本实验室”,把数据科学与社会学、心理学等人文科学结合起来,研究人心里的内在动机和社会行为。

“目前,大部分商业数据公司主要是通过数据,观察人的活动行为,进而判断人的特点,作出相应的商业决策,并不关心人心理做决策的真正原因和动机。”崔晓波认为,人本实验室就是为了弥补这一点,让数据科学更加“以人为本”。“在数据时代,人的心智也在发生急剧的变化,这是我们做这个实验室的初衷”,崔晓波说到。

2017年底,崔晓波的人本实验室团队,用机器学习等数据科学的方法,重新对北京城市的人群做了一次分类。由于工业化和城市化的影响,传统的城市人群会根据阶层划分,在城市中形成多个中心化的网络布局,例如北京的金融街、CBD、某某学区等,这直接影响了城市规划和资源分配方式。

当崔晓波用时空大数据重新观察北京的人群时,他发现了一种基于时空折叠的新的分类方法。由于人们的作息时间、生活方式不同,有些传统意义上应该是某一阶层的人群,其实在生活中完全没有交集——他们都在国贸出现,但是永远碰不到——这就会让一个城市缺乏活力,影响资源的分配效益。数据科学给出了七种人群划分,然后,他们再用社会科学的方法去解读、验证它。

只有了解数据,又了解人的行为模式和动机,才能够进行更好的用数据改善人类生活。这可能是未来数据科学,离我们普通人最近的样子。

在采访的最后,崔晓波总结自己,是一个数据科学领域里“务实的理想主义者”。这听起来有点矛盾,不过,纵观他的职业生涯,他对人对事总是“很实在”,对自己对未来却又充满“理想”。在虚实之间,他似乎总能找到一种奇妙的平衡状态,践行着自己的数据科学之道。

注:

本文转自公众号:DT数据侠

原文作者:程一祥

TalkingData-2018年2月移动游戏Benchmark

TalkingData2018年2月移动游戏Benchmark解读:

付费率:2018年2月,移动游戏用户的付费率在Android平台略有下滑,在iOS平台有所回升,其中,动作类移动游戏在Android平台的付费率环比下降1.0%,在iOS平台则环比增长4.0%;

用户活跃度:2018年2月,Android和iOS平台移动游戏用户的活跃状况有所提升,其中,策略类移动游戏在Android和iOS平台的周活跃率分别环比增长5.3%和8.1%,月活跃率则分别环比增长4.6%和3.9%;

用户留存率:2018年2月,整体上Android和iOS平台移动游戏用户的一日玩家比例略有增长,次日留存率和7日留存率有所下降。其中,休闲类移动游戏在iOS平台的一日玩家比例环比增长0.7%,其次日留存率和7日留存率则分别环比下降0.7%和5%;

使用时长&次数:2018年2月,移动游戏用户的日均游戏次数和平均每次游戏时长总体保持稳定发展态势。其中,卡牌类移动游戏在iOS平台的日均游戏次数环比下降3.4%,平均每次游戏时长环比下降1.6%。

更多移动互联网的行业数据和报告,请登录TalkingData移动观象台

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

7分钟视频,3大方面,让我们来聊聊数据可视化这件事儿

点击播放《7分钟视频,3大方面,让我们来聊聊数据可视化这件事儿》

《数中生智》第三期节目来啦!

你眼中的数据可视化是什么样子?

年终汇报的图表?

媒体报道的信息图?

每年“双十一”剁手节的成交量大屏?

No No No

数据可视化可并不只是

“用美观的画面展示统计结果”

本期栏目我们将跟随

TalkingData产品经理彭嘉的脚步

一同进入数据可视化的世界

探索不为人知的冷知识和黑科技

发现数据可视化的魅力与价值

数据可视化从哪来?

Markdown

William Playfair

来来来,同学们,抬起头来看黑板哈!(敲黑板!)

我们现在常用的传统图表(柱状图、饼状图等等)都是由英国人威廉 · 普莱费尔(William Playfair)于1768年所著的《商业和政治图解》一书中首次发明的。直到20世纪50年代,基于计算机图形学的发展,才慢慢出现了我们现在在网络和电子媒体上看到的数字可视化作品。

(课后练习:朗读并背诵全文)

你可能不了解的数字可视化案例

Markdown

浑天仪

数字可视化并非仅局限于2D的平面作品,也可以是3D的实物装置。我们非常熟悉的浑天仪,其实也是基于观测到的天体运行数据,定量展示天体运行规律的数据可视化应用。

Markdown

伦敦霍乱

数据可视化还有一个重要的作用,就是在探索问题时验证想法,例如英国人流行病学家约翰·斯诺(John Snow)通过在地图上做标记,成功发现霍乱规律并停用了被致病水源的水泵,进而阻止了1854年伦敦霍乱疫情的蔓延,成为地图数据可视化的典型应用。

Markdown

萤火虫飞行轨迹

近年来,一些科学家和艺术家又通过传感器收集数据,以数字化的艺术形式来引起大众的情感共鸣,比如德国物理学家克里斯蒂安 · 克维塞克(Kristian Cvecek)通过长时间曝光捕捉萤火虫的飞行轨迹,令人惊艳的美丽画面展示出萤火虫的迁徙规律。

实际生活中,数据可视化对商业有着非凡的意义和价值,比如彭嘉的日常工作就经常需要使用可视化工具去探索数据的特征,发现同一份数据在不同业务背景下的不同特征。

Markdown

比如借助TalkingData开发的“城市透镜”,对北京市移动设备日常潮汐流动做了分析,实现更动态、更深入的洞察我们所生活的城市。

数据可视化的未来

Markdown

电影《黑客帝国》

未来,数据可视化可能不再局限于媒介、屏幕,而像《黑客帝国》那样,直接与人脑连接,跳过以眼睛为载体的视觉体验,真正在大脑意识中看到数据的样子。

互联网已经只能用PC上网的Web1.0 时代,发展到通过手机即可随时随地访问网络、实现人与人互联的Web2.0 时代,未来将会是万物相连的Web3.0 时代,所有物体最细微、最难以观察的变化都能被人类所采集。

面对指数级增长的数据,该如何从海量数据中发现规律并进行展现,是数据可视化未来需要解决的问题,也是需要我们不断探索的方向。

本期节目就到这里,感谢大家的关注,我们下期节目再见。

节目中所提到的案例使用了:

开源的UI组件库iView:https://www.iviewui.com

开源的地理信息可视化框架inMap:http://inmap.talkingdata.com

以及全新的位置大数据可视化平台DMap(尚未发布,敬请期待)

详细了解这些有意思的数据可视化应用:

2015年京东双十一实时可视化战报:https://www.digitaling.com/projects/16070.html

2017年淘宝双十一可视化大屏幕介绍:http://mp.163.com/v2/article/detail/D27QI6NP0511KPLK.html

一个苏格兰痞子改变了我们看数据的方式:https://www.atlasobscura.com/articles/the-scottish-scoundrel-who-changed-how-we-see-data

数据之美·数据的可变性:http://www.cbdio.com/BigData/2015-11/04/content_4089275.htm

图表的重要性:Anscombe的四组数据:http://www.matrix67.com/blog/archives/2308

全美印象地图:https://www.ted.com/talks/r_luke_dubois_insightful_human_portraits_made_from_data

中国偏见地图:http://roll.sohu.com/20160107/n433755438.shtml

更多参考资料:

威廉姆•普莱费尔(William Playfair)介绍:https://en.wikipedia.org/wiki/William_Playfair

约翰斯诺(John Snow)介绍:https://en.wikipedia.org/wiki/John_Snow

智慧商业,数据之选

 

日前,腾讯云联合国内领先的数据智能服务商TalkingData,在“2018 云+未来峰会”上正式对外公布了面向线下品牌商的数据智能产品——智选。这是一款将海量数据与机器学习有机整合,旨在解决实体门店的选址、商圈经营等场景问题,为智慧零售及多元化线下产业助力的数据智能产品。

近年来传统零售行业面临着前所未有的挑战,从网络、电商的飞速发展,至逐渐升级的线上线下有机整合,体验提升,智慧零售逐渐走进生活,改变着人们的消费习惯。智慧零售是新技术和实体产业的完美融合,倡导开放共享的生态模式,核心是社群、数字化、体验,以支付为原点、以“人”为中心、以大数据为驱动,帮助实体零售实现“降本提能”,拓展业务能力、耦合行业资源。这些元素在本次发布的“智选”产品中都得到了充分体现。

开店是线下品牌商面临的第一个问题,如何选择符合自身品牌特质的区域,目标城市、目标客群是否符合自身需求?各区块之间存在什么样的差异?具体到运营层面,目标区块内的潜在客户对商品的需求是怎样的?对不同品牌的接受度如何等问题,都是线下零售业面临的挑战。以往,由于缺乏有效的数据支持,这些问题往往得不到解答。而像选址、商圈运营等决策问题,只能靠人工收集材料后凭借过往经验进行判断。

“智选”依托于强大人本数据、地理信息数据和商业经济数据,结合经典模型和预测算法,从商圈区位洞察、潜客浓度探索、职住通勤研究,以及商圈配套与经济研究等多种角度,帮助企业在新消费环境下打破时空信息的不对称,高效量化推动基于位置商圈的经营决策,获得竞争先机。

“智选”致力于对选址中三大核心问题的解决:

  1. 从跟随友商式的“盲选”模式,向“优质区位优选”模式的演进;
  2. 从商圈宏观客流研究模式,向潜客深入挖掘的演进;
  3. 从研究汇报模式,向直抵根源的营业额预测方向演进;

结合经典选址模型实现的“一键区位推荐”,是“智选”的一大特色。综合考量全城市每个区块区位的客流和人口规模、意向客群浓度、区位商业浓度氛围、周边临近竞争形势,量化为模型评分,将原本需要几个月完成的工作秒级一键输出;推荐选址点精确至百米街道级别。打破过去被动评估模式,让品牌联营商在城市进驻时的门店覆盖战略,能够做到有的放矢。

图1:图为“一键区位推荐功能”
为某零售商精选的百米精度高分段区位

除了提供便捷、高效的智能选址功能外,“智选”通过强大数据能力,全方位、深度分析意向商圈区域,对商圈客流坪效进行评定,涵盖客流、性别、年龄、职业、兴趣爱好、消费偏好、区域配套设施等全面维度;同时提供月份、周度、全日24小时的客流潮汐变化,帮助零售企业全面评估其意向客群在客流中的深度和占比。在量化数据的基础上,为选址的开、停、并、转研究场景提供决策支持。

图2:图为“商圈区域洞察功能”
为某餐饮加盟店出具的部分深度客群洞察

此外,选址和客群研究的最终目标是门店业绩得到保障,解决选址点的销售预测问题是从根本解决的方法。“智选”通过在机器学习预测上的经验积累,将成熟的生产级预测评估模型整合在产品中,以“品牌-城市-训练”的方式,在线高效提供选址点的销售预测数据,为经营分析人员提供量化、准确的决策支持,极大提升以位置为核心的商圈经营策略成功率。

图3:图为“机器学习云选功能”
为某连锁便利品牌预测的百米店址区位与月营业额匹配关系

腾讯云大数据应用产品总经理聂晶表示:“通过结合双方优势,利用先进的大数据建模能力,共同致力于“智选”平台为行业带来革新,让大数据更加公正、准确、便捷地为线下企业提供商业化选址。

聂晶 腾讯云大数据应用产品总经理

TalkingData产品副总裁闫辉表示:“双方的合作,使得我们的业务理解和算法得以落地,打破时空信息的不对称。如今我们联手发布产品,让更多的实体品牌客户选址更便利,改变原有大海捞针的被动选择为有的放矢。”

闫辉 TalkingData产品副总裁

 

关于腾讯云

腾讯云——腾讯倾力打造的云计算品牌,以卓越科技能力助力各行各业数字化转型,为全球客户提供领先的云计算、大数据、人工智能服务,以及定制化行业解决方案。

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。