TalkingData高铎:数据智能驱动数字经济

8月16日,由IDG主办的以“新时代·数字经济”为主题的“iWorld数字世界博览会”在成都拉开帷幕。TalkingData 副总裁高铎先生在此次峰会上发表了《数据智能驱动数字经济》主题演讲,并与现场嘉宾们分享了最新的行业观点。

TalkingData 副总裁高铎‍

三年前高铎先生提出过一个观点,大家都在讲大数据,但是由于数据的不完备性,大部分企业使用的都是“小数据”;去年在成都的大数据会议上,提出了三个数据孤岛群概念,就是运营商、政府和头部互联网企业(如BAT)的三大数据孤岛群各自难以打通。通过TalkingData几年来在大数据领域的实践,我们认为,大数据开始从概念走向具体应用,同样的在数据治理和数据应用层面,如果能解决好这几个问题,“开放”、“连接”、“智能”和“安全”,那么数据智能将会强烈推动数字经济的发展。

‍建立开放数据的前提认知到数据割裂性‍

  • 第一, 移动应用层数据的割裂性,我们每个人都拥有一台智能手机,手机上少则装了十几款APP,多则上百款,每个APP的数据是割裂的,因为它属于不同的企业。
  • 第二, 跨屏数据的割裂性,我们每个人有4个屏幕,电视、电脑、手机以及车机屏幕,它们相互间是割裂的,它们属于不同的系统,甚至不同的产业。
  • 第三, 场景数据的割裂性,我们在商场里面,在会场,在不同的消费场景里面,都在贡献自己的数据,但它隶属于不同的消费场景。

总之,我们每个人,每时每刻都在生产数据,但是由于数据生产出去之后,分属于不同的企业,不同的机构,不同的场景。它很难关联,很难整合起来给我们提供更好的服务,这就是我们倡议要建立一个开放数据环境的前提。

如何开放数据?数字化、数据在线、数据实时与安全的标准开放协议

放数据,需理解四个概念:

  • 第一, 业务真正是数字化的。原因很简单,如果不是数字化的就没有了大数据的来源。
  • 第二, 业务数据是在线的。数据只有在线,对业务的了解才能全面深刻及时。
  • 第三, 数据是实时更新的,我们想做决策的时候,需要数字化的业务是可以实时回传到调度中心,运营中心以或者控制中心,以进行快速决策。
  • 第四, 开放数据必须建立并遵循安全标准的开放协议。

如何连接数据?ID稳定性、数据可连接、安全机制

大多企业都有这样一个观点:“我有数据,这是我的资产”,但都有一个特点,就是都不愿意拿出去用,却觉得拥有无限财富。真的如此吗?其实并不是,没有应用场景的数据就是一堆字节和服务器,只是公司的成本罢了。但是,如果放出去又觉得不值得、价值低估了、安全有风险了等等。所以我们提一个概念叫数据连接。一旦能建立连接,就可以做联合建模、做深度数据挖掘,实现业务闭环,又避免了企业的各种担忧和敝帚自珍。

数据连接要求:

  • 首先,拥有稳定加密的ID。
  • 第二,数据是可连接的。
  • 第三,健全的安全机制,要保证所有设备信息的安全使用,保证企业业务数据的安全使用。

如何打造 数据智能?数据模型、数据产品、数据场景、数据闭环反馈

在保证数据安全开放和可连接的基础上,我们才能谈数据智能。比如客户要对业务流程进行优化,可以推出针对性的数据模型进行决策;客户有新客获取及老客回流等业务需求,可以推出以目标群体数据画像为主的产品帮助客户营销;在特殊的应用场景中,如风控领域,可以帮助客户更好的区分坏人,更好的对好人的授信额度进行细化。

这里,有一个非常关键的点,我们要认识到,数据的使用是一个闭环,数据应用的过程是螺旋上升的过程。当认识到这一点,在利用数据解决问题的时候,我们才会有耐心,才真正愿意在算法模型上做投入,而不是抱着数据是万能的心思幻想着使用一下就可以毕其功于一役。

‍数据安全贯穿数据生命周期‍

随着大数据的发展,一方面我们享受到了带来种种好处,另一方面也让普通用户有很多质疑,大数据真的安全吗?对我们的隐私做到足够好的保护了吗?

所以我们使用大数据的时候必须要具备安全意识和并落到具体应用的每个环节。

在数据收集端,要收集合规合法的数据;在数据传输端,要做到多层加密;在数据加工端,有相应的脱敏加工机制,和分权加工机制与管理机制;在应用端,也要有相应的安全技术处理,做到各个角度都是不可逆的,不可溯源的,但又是能对业务起到良性帮助的。

‍未来的数字经济图景‍

总结一下,提到未来的数字经济,我们认为,:

首先数据应该是实时在线的,且能够做批量规模化处理,同时在不同的数据源之间有开放安全的标准协议;其次,连接层面有稳定的ID和安全机制,在AI算法上,有能解决具体业务问题的产品或者模型;

  • 再次,应用场景是闭环、且螺旋上升的;
  • 第一, 安全机制贯穿始终,如何强调都不为过。
  • 这是我们从数据和技术层面理解的未来数字经济图景。

产品专栏丨移动运营平台5.0全新改版发布

近日,TalkingData正式发布移动运营平台5.0,本文将从产品的角度回顾和分享TalkingData移动运营平台从2.0到5.0的经验和思考。

一、移动运营领域的经验推动改版

  • 超过6年以上移动端企业级应用的经验
  • 服务用户平均日活>100万的企业级应用
  • 服务金融机构头部用户>60%的企业级应用

TalkingData从2012年就开始尝试大型机构的移动端运营,如今已经保持了行业相对领先的优势,俗话说得好,春江水暖鸭先知,移动运营平台在头部市场这么多年的经验可以帮助我们更好地理解企业需求以及洞察需求的变化。

移动运营的三个阶段:

  • Facts:获取更多更细颗粒度的数据
  • Indication:更快的获取到Facts中间的风险和机会
  • Take Action:尽快地消化数据、规避风险或者抓住商机形成业务结果

在移动运营2.0时代,我们帮助企业获取更多的行为数据补充业务结果,用来解决数据的几个问题:一是时效问题,二是传统企业只能看到结果看不到过程的问题。

在移动运营3.0时代,TalkingData推出“3A3R”理论,帮助企业更好地规整展现数据,简单来说就是:如何看报表。

在移动运营4.0时代,企业的需求逐步从Facts向Indication转型。数据越来越多,颗粒度越来越小,而挖掘机会和规避风险的成本越来越高,于是TalkingData提出无代码埋点帮助业务更快的获取所需数据,推出自定义报表让业务人员按需配置及呈现。

而移动运营5.0时代,是Insight To Action时代。企业越来越关心如何消费数据和ROI,而不是将分析结果看过且过。TalkingData多年来的行业积累、埋点策略和指标体系也逐渐凸显出价值。

因此推动了移动运营平台5.0的全新改版——从统计分析到分析运营的升级!

二、TalkingData移动运营平台5.0做了什么

前文叙述了移动运营的3个阶段:Facts、Indication、Action。接下来,回到运营的本质看移动运营平台5.0都有哪些改进和升级。

移动运营平台5.0的设计框架UIMA:

  • User:强大的人群定义和画像能力
  • Identification:移动运营的场景核心是主路径的定义和识别
  • Marketing:碎片化的交互模式,需要可碎片化的场景触发式营销
  • Analytics:更灵活的采集,更有价值的模板,更方便的ROI归因
  • User: 强大的人群定义和画像能力

首先,来谈下对于用户的定义。移动统计分析平台5.0提供了对于用户的两种定义和选择。传统金融行业的实际业务场景是强账户的登录和交易,因此强账户的业务形态是多平台客户的对应问题。对于电商和零售行业而言,可能存在着多人同时使用一个账号的情况,例如一个家庭只有一个电商类应用的账号,通过账户很难定位用户偏好,因此通过区分行为发生的设备可以更好地定义用户属性和行为特征。

此外,传统的人群分群方式是定义用户属性,但在移动的应用场景中还要关注用户的行为。例如分析信用卡用户可以根据用户的持卡等级以及用户浏览过的分期产品,去定义不同的目标人群,并运用平台的场景触达的能力,编排目标人群的营销策略(Marketing部分会进行详细介绍)。

  • Identification:移动运营的场景核心是主路径的定义和识别

移动运营5.0平台提供了基于用户POI的分析,通过同比和环比的快速切换,即可看到用户分布变化。另外,对于新零售和传统金融机构网点转型的需求,结合TalkingData庞大的移动设备覆盖量,后续将提供更多基于“地图”的分析模块。

至于场景洞察漏斗的分析,将分为两个场景的定义方式:一是主动的场景转化漏斗,二是智能路径。由于现在的应用交互大多仍是界面式交互:一个点击一个页面,因此天然会形成一个路径(游戏除外)。有些产品会设计一些路径,但其实用户可能并没有按照我们的设计去产生行为。

高级转化漏斗可以帮助运营人员观察所涉及的路径的转化情况:有多少用户走了这些路径、转化率情况等。移动运营5.0平台提供了页面和事件混排的转化漏斗,可以一个事件一个页面的去设计漏斗,并且支持漏损人群的下钻,详细分析漏损人群的特征。

如果用户没有走设计好的路径,我们就需要去设计智能路径。设置好页面或者事件的起始点,系统会计算所有用户走过的全路径,并且通过人数、转化率、步骤数量,提示运营人员应该如何优化页面逻辑和页面话术引导。

  • Marketing:碎片化的交互模式,需要可碎片化的场景触发式营销

当完成了对目标用户的定义和对于场景的分析洞察后,会发现很多风险和机会,而移动运营的环境决定了用户在平台上的时间是碎片化的,这是常规触达和运营抓不住的机会。此时可以依靠可视化营销任务编排的能力去实现场景触发式营销,抓住每一次与用户的最好的沟通机会。并且系统会自动记录每一次触达后用户的反馈和对指标的贡献,自然形成数据闭环和业务闭环来优化策略,亦或是为下一次大型营销活动提供基础参照。

  • Analytics:更灵活的采集,更有价值的模板,更方便的ROI归因

基础分析模块,基于多年的企业服务经验及用户分析,移动运营平台将曾经260多个指标精简到了58个,这些核心指标是业务和运营人员经常查看或已经进入业务KPI范畴的。而剩下的指标分析千变万化,因此提供了自定义报表的功能以便业务人员自行梳理业务分析逻辑;此外,还提供TalkingData多年行业服务所积累下来的分析模板,助力业务分析,并将分析逻辑和结果更快的分享到团队内部进行反馈。

在私有化版本的移动运营平台5.0中,同样新增了小程序的分析模块。在社交时代背景下,app的分享目前是受到限制的,但我们可以很容易分享一个小程序或H5。并且,小程序、H5和app之间可以相互调用的趋势已经十分明显。这样,就可以通过分享一个小程序来吸引用户下载一个更稳定和丰富功能的app。

最后,在技术人员不断的技术攻关下,移动运营平台5.0完成了也许是史上最强的无代码埋点。运营人员既不用读懂复杂的SDK集成文档,也不用去理解某个元素是否可以埋点。系统能够自动识别可埋点的元素,并且可视化埋点支持参数的上报,帮助获取“订单金额”、“产品分类”、“产品名称”、“ 交易类型”、“ 交易方式”等等一系列的相关事件的采集。平台还提供“当前元素”、“当前位置”和“同类元素”的采集逻辑,降低了手工埋点的重复性工作。另外,无论是app、h5还是混合模式,都支持在PC端完成一站式埋点,设置足够丰富的参数和埋点逻辑。

三、移动运营平台未来会做什么

看到这里,您可能会问TalkingData移动运营平台未来的发展方向在哪里。我们依然从移动运营的3个阶段来看:

  • Facts: TalkingData本质是大数据公司,我们将逐步输入TalkingData移动端行为数据的绝对优势,帮助企业还原用户画像、洞察潜在价值用户。
  • Indication:挖掘机会和规避风险是有成本的,通过同行业跨企业的经验积累,逐步形成基于模型和规则的预测预警体系。
  • Take action:更多的触达平台和能力对接。

TalkingData: 从客户体验到客户经营,电子银行的数据增长之路

近日,“科技重构金融未来”——中国电子银行联合宣传年2018贵阳高峰论坛顺利举行,贵阳市政府、近百家银行相关部门领导、金融科技企业和学术专家共计约150余人参会。TalkingData首席金融行业专家鲍忠铁出席本次论坛,并就数字时代下的电子银行、从客户体验到客户经营以及数据增长工具和案例三个方面分享了关于电子银行的数据增长之路的思考。

MarkdownTalkingData首席金融行业专家 鲍忠铁

在过去的几年中,国内电子银行的产品功能和用户体验日渐趋同,从应用商店的评分看,差距不大。TalkingData移动数据研究中心的报告指出,移动智能终端用户平均安装与平均每日打开应用款数已持续两年出现下滑,平均每天打开的应用款数从24.6降为20,手机流量向头部APP迁移。线上流量成本过高,获客告别野蛮增长时代,移动互联网已进入了存量经营的时代。

手机银行如何定位?是线上渠道还是线上网点?鲍忠铁认为,中国手机银行出现时定位为渠道,为客户提供移动金融服务,而在未来它将转向线上经营场所,其数据运营能力需要向互联网头部APP学习。互联网产品讲究三分产品、七分运营,手机银行的运营工具和运营能力均需要提升。

麦肯锡在其分析报告中提出了银行应具备的五种数字化能力,即数据驱动的数字化洞察力、一体化的客户体验、数字化营销、数字化运营以及下一代技术。其中数字化运营能力及数字化营销能力是电子银行需要高度重视的两大能力,也是所有手机银行应该重视和投入资源的方面。如何从数据中发现商业机会,找到营销点、找到场景?银行需要利用营销提高数字化转化率,手机银行不仅仅需要服务固有客户,也要作为一个网点去吸引其他客户。

对于电子银行未来的发展,鲍忠铁指出,电子银行未来的发展需要从客户体验逐步转为客户经营。在确保产品体验和功能不落后行业的前提下,逐步建立数字化运营体系,将重点转向客户经营。通过数字化运营体系的建立来提升客户活跃度、满意度、单个客户的价值,并建立数字运营闭环。

数据驱动增长的目标,是在所有的营销活动和业务运营中,找到投资回报率最高的方式。数据增长和精准营销也有所不同,精准营销偏向于客户的获取,在广告界更为常用;而数据增长关注的是整个用户生命周期,强调量化结果、优化产品、传播产品、数据驱动业务增长。鲍忠铁认为,要实现数据增长的理论目标,需具备三项基础:理论方法、工具平台、团队。先从理论方法入手,增长理论包括北极星指标、增长模型、用户心理学、增长流程。二是数据分析工具,支持增长需要平台,数据中转时需要数据分析工具,包括了指标体系、统计分析、漏斗分析、趋势分析。最为关键和核心的是要进行数据实验。

有关数据增长营销中台的建设,营销中台上层是业务需求,比如财富管理人群、流失客户预警以及潜在高价值客户的寻找、促活、转化,这些都是业务需求,需要事件营销场景去支持。在很多传统的金融企业、特别是电子银行里缺少这样的营销中台,而更多只有数据中台。TalkingData针对数据增长的理论和框架推出了AE系列产品,目标是打造与互联网企业具有同样领先能力的运营中台,目前已经迭代到了最新的5.0版本。

AE 5.0具有基础分析、行为分析、精细分析、用户洞察和人群细分几大功能,所有功能都是为了支撑客户体验优化,包括产品迭代和数据资产变现。AE 5.0的一大特点就是可以无码埋点、零动分析,所有的埋点都可以自动化操作,对线下网点分析、线下活动、线下网点开设都有指导作用。

最后,鲍忠铁还分享了一个实际案例,某银行与TalkingData合作,将行内的数据与TalkingData的数据打通,通过筛选、建模形成用户画像,对不同人群进行精准营销。与以往粗犷式营销相比,不仅降低了成本支出,还保障了营销运营成本风险的可控性。

新功能|TalkingData推出线下推广监测服务

随着线上流量成本升高和红利消退,商家们着眼于线下流量挖掘。在线下推广场景中,商家多以扫描二维码的方式作为入口,但此方式无法识别设备ID用于后续归因进而评估营销效果。

线下推广中,依旧被多数商家应用的传统匹配监测逻辑,在多名客户使用同WiFi网络环境或扫码与下载使用不同网络环境的情况下误差率较高,极易因统计误差造成业务人员与商家出现纠纷。

Markdown

为使商家能够精准统计不同业务人员、不同商圈门店的拉新引流效果,TalkingData打破传统归因逻辑,推出了使线下推广统计更精准、商家管理更便捷、效果点更精细,基于注册行为精准匹配方式为归因逻辑的线下推广监测服务。

TalkingData Ad Tracking线下推广监测服务支持以下功能

  • 推广管理者可批量生成推广二维码,实时监测不同实体门店、不同业务人员的推广效果;
  • 推广二维码由推广管理者统一制作后自上而下逐一发放,同时也支持业务人员/实体门店自下而上申请认领,推广管理者可结合场景自由选择;
  • 支持Html5、WeApp、Android和iOS四大平台线下推广监测;
  • Android和iOS多平台推广时,基于EasyLink提供一码多平台智能识别解决方案;

TalkingData Ad Tracking线下推广监测服务适用场景更多元

  • 多商圈实体店推广

此类线下推广,可由推广管理者统一生成推广码,下发至各实体店。待各门店信息完善后,TalkingData Ad Tracking线下推广监测功能将新增数据及其后续转化行为精准归因至各门店,便于推广管理者对各门店指标横向对比和推广优化;

  • 多业务人员地推拉新

在此类场景中,业务人员数量较多、人员分散,业务人员拉新的质和量也与其业绩相关。为了便于推广管理者对业务人员的业绩统计和快速人码合一,TalkingData Ad Tracking线下推广监测功能,支持业务人员通过填写推广管理者提供的短链去完善个人信息,进而生成与业务人员相对应的推广二维码。

业务人员完成推广拉新后,推广管理者可通过TalkingData Ad Tracking后台,查看各业务人员带来新增的质与量,帮助推广管理者对业务员业绩和新增数据进行结算与评估。

如果您存在以下困境,推荐您使用TalkingData Ad Tracking线下推广监测服务

  • 无法准确评判推广业绩;
  • 无法获得线下推广后新增转化的后续行为数据;
  • 多门店/业务员推广统计效果不佳,无精准数据优化推广和完善策略;
  • 同一活动Android和IOS多平台推广,无法二码合一;

以上困境只要有一个与您相关,那么深度了解和使用TalkingData AdTracking线下推广监测服务,就一定会对您有所帮助!

目前,TalkingData Ad Tracking线下推广监测服务已正式上线,开发者可以登录TalkingData Ad Tracking平台了解该服务的更多特点与具体功能。点击即刻申请试用,更多线下推广监测场景应用期待您的发现。

T11 2018数据智能峰会完整注册流程

T11 2018马上就要开始啦,相信很多小伙伴都想问,该如何注册参会呢?本文就教给大家! PC端注册流程

1、复制下方活动链接,并在浏览器中打开

http://www.huodongxing.com/event/1451528267400

2、 点击“我要参加”,选择对应的票种及数量,如有优惠码可进行输入

Markdown

3、点击“使用”进行优惠码验证,点击“我要参加”,验证联系方式(如无优惠码,直接点击“我要参加”,验证联系方式)

Markdown

4、填写报名表单,点击“提交”,进行付款

Markdown

移动端注册流程

1、点击文末“阅读原文”

2、如有优惠码可点击“我有优惠码”进行输入

Markdown

3、点击“确认”进行优惠码验证,点击“立即报名”(如无优惠码,直接点击“立即报名”)

Markdown

关于发票

购票发票(增值税普通发票)将于活动结束后10个工作日内邮寄,开票信息及邮寄信息请发邮件至:T112018@tendcloud.com 注:需附订单截图、预定人姓名及订单号

好啦,以上就是 T11 2018的注册流程,小伙伴们,我们9月11号见!偷偷地告诉你们,后面的文章或互动活动中,小编会发放优惠码和T11门票哟,请持续关注TalkingData公众号!

T11 2018报名参会,请点击

邀您见证数据智能的突破 | T11 2018整装待发

MarkdownMarkdownMarkdown

2018年 即将揭晓

Markdown

一年一度的大数据领域盛会 T11 2018 整装待发 同一个时间——2018年9月11日 同一个地点——北京·中国大饭店

T11 2018暨TalkingData数据智能峰会,邀请您与TalkingData和5000+各行业精英一起,探讨数据赋能社会转型升级的突破性思路,分享数据驱动各行业成效提升的突破性案例,打破传统商业模式、打造开放连接生态,用突破诠释数据的力量。

1个主题

突破

突破,创造新生;突破,成就非凡;突破,颠覆时代。大数据、云计算、AI、区块链……无限的0、1世界中,一次次技术突破,带来无限价值与机遇。

所谓不破不立,TalkingData将带您一起突破、跨越,用数据洞察引领智慧突破,用突破跨越发展困境,探秘数据智能驱动的全新世界。

2个方向

智能化

数据与智能的关系就像血液与大脑,而大脑才是创造智慧的主体。当下,数据只是起点,更关键的是从数据中形成智能,用智能来提升决策的质量与效率。

成效化

当下,是否要进行数字化转型已不是问题,如何用数据智能带来效率与效益的实际提升,打通从数据到成效的闭环,才是数据驱动转型的关键所在。

3大亮点

“成效合作伙伴”典型案例首次发布 TalkingData已经进行了近一年的“成效合作伙伴”实践,此次大会将首次邀请TalkingData在零售行业的“成效合作伙伴”,解读“成效合作”的典型案例。

神秘评选结果隆重揭晓 T11近年都会发布移动应用行业的重磅奖项。本次大会上,将为大家揭晓对于金融、零售、游戏等热门行业来说,最具投放价值的受众人群到底在哪里。

“TalkingData顾问天团”首次亮相

TalkingData强势发展战略与路径的背后,隐藏着一支国际化的“顾问天团”。此次大会即将首次邀请“顾问天团”的几位资深行业专家集体亮相,分享他们的前沿视野、独到见解与丰富经验。

4年积累

从2015年首次举办,T11已进入了第4年。支撑T11在4年中逐渐成长、成熟的,也是TalkingData成立7年中的不断发展与演进。

4年来,T11汇聚海内外知名专家、学者、数据科学家等相关从业者,总结了大数据行业的发展趋势,也积累了广大合作伙伴在各行业转型方面的实践经验。

5大峰会

  • 数据智能峰会
  • 新金融峰会
  • 新零售峰会
  • 智胜营销峰会 智慧城市峰会

∞可能

互联网、金融、零售、汽车、房地产、航旅、医疗、制造、政府……

数据与各行各业相结合,产生丰富多样的应用场景,带来不可估量的商业价值与社会价值。

数据改变企业决策,数据改善人类生活,无限潜力,无限可能。

了解T11 2018详情及报名参会,请点击

技术专栏 | 集合管道模式(下)

​前一篇文章中,我们了解了集合管道:集合管道是一种编程模式,将一些计算转化为一系列操作,通常情况下每个操作的输出结果是一个集合,同时该结果作为下一个操作的输入,常见的操作主要有filter、map和reduce。,今天我们继续了解集合管道模式的定义等。

二、定义

我认为集合管道是一种指导我们如何模块化和构建软件的模式。和多数模式一样,它经常出现在各种场景中,虽然对此我们习以为常,但是这种模式却别具一格。模式可以解决特定的设计问题,帮助设计者将新的设计建立在以往工作的基础上,复用以往成功的设计方案。

集合管道展示了一系列彼此间传递集合的操作,这些操作的输入输出都是集合,但是其中不包括终端操作,因为终端操作只会输出单个结果。个别的操作可能非常简单,但是你可以使用各种简单操作构造复杂的行为,想象一下现实世界中纵横交错的管道。

集合管道是管道过滤器模式的一个特例,管道过滤器中的过滤相当于集合管道中的操作,之所以没有使用过滤这个词语,因为过滤是一种常用的管道操作名称。从另一个角度看,集合管道是一种组成高阶函数的特殊方式,其中涉及的所有函数均作用于某种形式的数据结构,该模式没有确切的名称,需要使用一个新的术语。

操作彼此间传递的信息在不同的环境中有着不同的形式:

  • Unix 中集合是一个由多行文本组成的文件,各种值通过空格连接组成了其中的行,每个值具体表示的含义依赖于行中的排序。管道操作符可以将某个操作的输出重定向到下个操作的输入,集合由管道操作符组成,操作在 Unix 中表示进程。
  • 在面向对象程序中集合用集合类表示,例如 listarray set 等。集合中的每个元素都是对象,对象可以是普通类或集合类的实例。操作是集合类本身(或基类)中定义的各种方法,可以由方法链组成。
  • 在函数式语言中集合与面向对象语言有些类似,集合元素可以定义复杂的层次结构,操作是函数,可以通过嵌套或者使用形成线性表示的运算符组成,例如 Clojure 的箭头运算符。

这种模式也会出现在其它地方。当关系模型首次定义时,其假定所有数据都表示为数学上的关系,就是说n个集合的笛卡儿积的一个子集,数据可以通过关系演算和关系代数的一种方式来操作,你可以将其视作一个集合管道,操作中产生的中间集合被约束为关系。SQL最初作为关系数据库的标准语言而提出,而在实际上总是违背它。所以SQL DBMS实际上不是真正的RDBMS,并且当前ISO SQL标准不提及关系模型或者使用关系术语或概念,SQL使用了一种类似于推导的方式(稍后我会讨论)。

这样一系列转换的概念是软件构建中常见的方法,这也是管道过滤器模式的设计意图。编译器工作原理相似,将源码转换为语法树,途经各种优化,最后输出目标代码。 关于集合管道的区别:各阶段公用的数据结构是集合,最后限定一组特定的公共管道操作。

三、探索更多管道和操作之 map 和 reduce

到目前为止,涉及的是一些常用的管道操作,接下来通过 Ruby 事例代码,让我们来探索更多的操作。诚然使用其它支持该模式的语言,也会构造相同形式的管道。

统计单词总数(map 和 reduce)

通过统计所有文章单词总数的例子,让我来介绍下两个最重要的管道操作。

第一个 map使用给定的 lambda 表达式,作用于输入集合的每个元素,将 lambda 表达式结果以集合的方式返回。

[1, 2, 3].map{|i| i * i} # => [1, 4, 9]

通过使用 map 将文章列表转换为每篇文章单词总数列表。

第二个 reduce输入集合经过累计运算,最终输出单个结果。具有类似功能的任何函数都可以称作 ReductionReduction 在集合管道中总是以终结者的身份最后登场。通常情况下,可以使用两个入参的 lambda 表达式来定义 Ruby 中的 reduce 函数,一个入参是集合元素,一个是累加器。 reduce 的过程中,使用 lambda 表达式作用于每个元素,累加器会累计每次 lambda 的返回结果。接下来你可以这样求和:

[1, 2, 3].reduce {|acc, each| acc + each} # => 6

之后使用 map reduce 构造两步操作的管道来统计单词总数。

some_articles
  .map{|a| a.words}
  .reduce {|acc, w| acc + w}

第一步使用 map 将文章列表转换为每篇文章单词数列表,第二步使用 reduce 累计求和。

在这点上,值得一提的是管道上的操作你可以使用不同的方式定义,上面使用的是 lambda其实仅使用函数名称也是可以的,例如在 Clojure 中:

(->> (articles) 
     (map :words) 
     (reduce +))

该场景中,你只需要关注函数名称,对于 Ruby 也可以使用同样的风格:

some_articles 
    .map(&:words) 
    .reduce(:+)

通常情况下使用函数名称看上去更精炼,但是你会受限于函数的声明和调用方式。lambdas 可以提供更大的灵活性,但是你需要了解更多的语法。关于使用何种语言构造管道,如果 Ruby,我倾向于使用 lambda,如果 Clojure,则是函数名称。具体使用何种方式,你可以自由选择。

四、探索更多管道和操作之 group-by

统计每种类型的文章数(group-by)


接下来我们会统计每种类型的文章数,依据统计结果输出的形式,需要使用一个键是类型值是文章数的 hashmap

为了解决这个问题,首先我们需要根据类型对所有文章进行分组,这里使用的集合操作就是 group-by,通过使用该操作,会将所有元素射到 hash 中,而索引值依据在此元素上执行给定代码的返回结果。 让我们来看看具体使用的细节:

some_articles
  .group_by {|a| a.type}

然后需要统计每种类型下的文章数。你很可能这样认为,不就是一个简单的 map 操作吗?但实则不然,因为这里需要返回两种维度:分组和数量。这和我们之前介绍 map 的例子有些许联系,但是此时需要使用 group-by 输出 hashmap。

想想开篇中 Unix 的命令行,这个问题在 Unix 中是很常见。集合通常以 list 形式出现,但有时却是 hash,有时候需要在二者之间来回转换。有个取巧的做法是将 hash 视作键值对列表,其中键值对是一种独立结构。关于如何定义 hash 每种语言略有差异,但通常是这样:[key, value]。

Ruby 提供了 to_h 方法可以将数组集合转为 hash

some_articles
  .group_by {|a| a.type}
  .map {|pair| [pair[0], pair[1].size]}
  .to_h

在管道中 list hash 经常这样互转,但是访问 hash 却需要使用数组下标的方式访问,多少有些怪异, Ruby 可以将其解构为两个独立的变量:

some_articles
  .group_by {|a| a.type}
  .map {|key, value| [key, value.size ]}
  .to_h

在函数式编程语言中解构是一种常见的技术,但是传递这些 list-of-hash 数据结构性能上势必会有所损耗。Ruby 的解构语法非常简单,而且足以达到这个简单目的。

同样 Clojure 更是如此:

(->> (articles)
     (group-by :type)
     (map (fn [[k v]] [k (count v)]))
     (into {}))

2018二季度移动智能终端市场报告

2018年二季度,移动智能终端市场走向如何?安卓设备用户又在哪两个品牌之间流动?TalkingData推出《2018二季度移动智能终端市场报告》,回顾二季度移动设备市场概况,分析安卓设备用户换机行为。

Markdown

中国移动智能终端规模已达15.1亿

2018年二季度,中国移动智能终端规模增速有所回升,终端规模已达15.1亿台。

Markdown

二季度小米品牌市场份额增长明显

2018年二季度,移动智能终端市场格局整体保持稳定,TOP10品牌排名未发生变动。苹果仍然以27.71%的份额占据榜首位置,OPPO以13.66%的份额成为国内安卓厂商领头羊。二季度小米品牌市场份额取得强势增长,相比一季度上升了2.55%。

Markdown

苹果与OPPO贡献最多高份额机型

单款机型表现上,苹果品牌保持领先优势,iPhone 6、 iPhone7 Plus 、iPhone 6S包揽了机型市场份额前三位。机型市场份额TOP 20中,苹果品牌占据10款,OPPO占据6款,两家贡献了最多的高市场份额机型。

Markdown

2017年底发售机型为主要增长点

2018年二季度,机型市场份额保持增长的主要还是2017年年底发售的机型。在机型市场份额增长TOP 20中,有15款发布于去年下半年,有8款发售于去年年底的11-12月。

2018年发布的新机型中,vivo X21以0.44%的份额增长居于第三位。

Markdown

一线市场苹果领先,安卓品牌深耕三线

在设备活跃城市层级分布中,苹果用户中一线、二线城市的占比要高于其他品牌。而安卓品牌用户分布主要以三线及以下城市为主,一线及二线城市占比最高的安卓品牌为华为及三星。

Markdown

华东、华南地区偏好iPhone

在华东、华南等地区,苹果在TOP品牌中更受欢迎。而OPPO在华中、西南地区更受欢迎,华为、vivo在华中地区更受喜爱,三星在东北地区最受欢迎。

Markdown

OPPO、vivo品牌用户流通最为常见

2018二季度安卓设备换机用户中,华为用户中有62.2%、小米用户中53.5%仍会选择本品牌,二者的品牌忠诚度最高。相似的定位促进了OPPO和vivo之间的用户流通,OPPO用户换机时有23.1%选择vivo,而vivo用户换机时有28.3%会选择OPPO,在跨品牌换机中占比最高。三星用户中的87.3%在换机时不会再选择三星,品牌忠诚度在安卓TOP5品牌中最低。

Markdown

典型机型换机分析:OPPO R15 换入OPPO R15的用户中,51.9%来自OPPO本品牌,48.1%来自其他品牌,其中来自vivo的用户占比为16.0%。换入OPPO R15的机型来源中,OPPO R9排在首位,机型来源TOP10中全部为OPPO机型,品牌内机型升级是主流。

Markdown

小米新用户更多的关心车子与房子

在二季度换机时选择其他品牌的用户中,选择小米的新用户对于汽车类、房产类、家居类应用的偏好更为突出,小米新用户的生活目标更多的集中在车子、房子。OPPO新用户更关心影音娱乐,而华为新用户更关心房产、健康与商旅出行,与其成熟商务形象相符。

Markdown

Markdown

简明数据科学第九部分:回归模型的相互作用和局限性

作者丨Pradeep Menon

原文丨https://datascientia.blog/2017/08/27/dss-p9-interactions/

译者丨TalkingData 张永超

编者按:

此篇文章结束后,简明数据科学系列算作一个阶段性的结束。虽然数据科学不止这么写内容,但是“温故而知新”,打算回顾一下之前的内容并加以练习,以加深相关概念和内容的理解。什么时候继续进行简明数据科学的内容更新,时间待定。

在之前的文章中,我们讨论了回归模型,费尔南多已经建立了一个多元回归模型,该模型的具体形式如下:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

该模型通过发动机大小、马力和宽度来预测或者估算汽车的价格。回想之前的内容,多变量回归模型是假定了预测因子是相互独立的,即发动机大小、马力和宽度是不相关的,独立的。但是在实际中,变量之间相互独立的情况很少,如果马力,发动机大小和宽度之间存在关系,该怎么办?这些关系可以模拟吗?

在本篇内容中,将解决这些问题,并解释相互作用的相关概念。

概述

预测因子之间相互独立意味着如果一个预测因子发生了变化,那么目标也会产生影响。这种影响与其他预测因子的存在和变化无关,目标和预测因子之间的关系是相加的、线性的。例如费尔南多的方程式:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

如果以发动机大小为标准,那么改变一个单位的发动机大小,汽车的价格变化87.34。而这种解释并没有考虑汽车的马力和宽度与发动机大小之间的联系。

难道汽车越来越大,发动机越来越大吗?

根据上述,费尔南多创建了一个全新的模型,其表达形式如下:

价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.(发动机大小.宽度)

第三个预测因子捕获发动机大小和车辆宽度之间的关系,这第三个预测因子被称为交互项。其中 β1.发动机大小 + β3.宽度 称为主要项。发动机大小x宽度为交互项。

上述等式重新组合后,形式为:

价格 = β0 + (β1 + β4. 宽度) 发动机大小 + β2. 马力 + β3. 宽度

现在,如果宽度增加1个单位,β4可以解释为对发动机尺寸的影响。

模型构建

费尔南多根据上述理论重新构建了模型,在统计软件中得到如下的参数:

Markdown

该等式变成:

价格 = 51331.363 – 1099.953 x 发动机大小 + 45.896 x 马力 – 744.953 x 宽度 + 17.257 x 发动机大小:宽度

价格 = 51331.363 – (1099.953 – 17.257 x 宽度)发动机大小 + 45.896 x 马力 – 744.953 x 宽度

让我们来解释这些系数:

  • 发动机的大小、马力和发动机的大小:宽度(交互项)都很重要。
  • 汽车的宽度并不重要。
  • 将发动机尺寸增加1个单位可将价格降低1099.953美元。
  • 马力提高1个单位,价格上涨45.8美元。
  • 交互项很重要,这意味着真正的关系不是叠加的。
  • 将发动机尺寸增加1个单位也会使价格提高(1099.953 – 17.257 x宽度)。
  • 测试数据的调整R平方为0.8358 =>该模型解释了83.5%的变化。

请注意,汽车的宽度并不重要。那么将它包含在模型中是否有意义?这里有一个被称为分层原则的原则:

分层原则:当模型中包含交互时,主要效果也需要包含在模型中。即使个体变量在模型中不显着,也需要包括主效应。

费尔南多现在运行该模型并测试测试数据的模型性能。

Markdown

该模型在测试数据集上表现良好。测试数据的调整R平方为0.8175622 =>该模型解释了位置数据变化的81.75%。

费尔南多现在有一个最佳模型来预测汽车价格并购买汽车。

回归模型的局限性

回归模型是数据科学的主力,是数据科学家工具箱中的一个令人惊叹的工具。当被有效使用时,他们在解决大量现实生活中的数据科学问题方面非常出色。然而,他们确实有其局限性。简要解释回归模型的三个局限性:

非线性关系:线性回归模型假定变量之间是线性的,如果关系不是线性的,那么线性回归模型可能无法按预期执行。

实用提示:使用像日志这样的转换将非线性关系转换为线性关系

多重共线性:共线性是指两个预测变量彼此相关的情况。当有很多预测因子和这些预测因子相互关联时,它被称为多重共线性。如果预测因子彼此相关,则特定预测因子对目标的影响很难被隔离。

实用提示:通过仔细选择预测变量来简化模型。限制选择太多相关的预测变量。或者,使用创建新的不相关变量的主要组件等技术。

异常值的影响:异常值是远离模型预测的值的一个点。如果目标变量中有异常值,模型将被拉伸以适应它们。针对少数离群点进行太多的模型调整。这使得模型倾向于异常值。对于大多数人来说,模型的拟合没有任何好处。

实用提示:删除用于建模的异常点。如果目标中存在太多异常值,则可能需要多个模型。

总结

至此,简明数据科学系列将告一段落,此阶段的主要目的是了解数据科学的基础,以及线性回归模型的从0到1。最后讨论了现行回归模型的局限性,在实际应用的过程中,可能需要进行数据的统计分析来分析数据以及数据之间的关系,如果是线性的,即可直接使用线性回归模型,若非线性,可能要使用其他方法,或者想法设防将非线性转换为线性关系后使用线性回归方法,需要根据实际情况而定。

2018年5月移动游戏Benchmark指标数据

2018年5月移动游戏Benchmark解读:

付费率:2018年5月,Android和iOS平台移动游戏用户的付费率总体环比上月持平,其中,Android平台策略类移动游戏的付费率环比增长1.2%,iOS平台角色扮演类移动游戏的付费率环比下降0.4%;

用户活跃度:2018年5月,移动游戏用户的Dau/Mau处于比较稳定的状态,但活跃率情况总体有所下降,其中,Android平台棋牌类移动游戏的周活跃率环比下降2.6%,月活跃率环比下降11.1%;

用户留存率:2018年5月,Android平台移动游戏用户的一日玩家比例相比上月整体有所微降,其中,卡牌类移动游戏的一日玩家比例环比上月下降0.1%,其次日留存率和7日留存率则分别上升4.2%和1.9%;

使用时长&次数:2018年5月,iOS平台移动游戏用户的日均游戏次数和平均每次游戏时长环比上月有所增长,其中,模拟类移动游戏的日均游戏次数环比增长3.0%,平均每次游戏时长环比增长7.5%。

MarkdownMarkdownMarkdownMarkdownMarkdownMarkdownMarkdownMarkdown