2018年,成为数据科学家需要哪些技能?(翻译)

作者:Iliya Valchanov

原文:What are the Skills Needed to Become a Data Scientist in 2018?

译者:TalkingData市场部

本译文禁止商用,转载请注明来源!

据Glassdoor,数据科学家是2017年美国的头号职业。这并不意外,因为这一领域的中位基本工资达到了12万3千美元。但数据科学家的就业市场远不饱和,仅在美国就有19万的人才空缺。如果你在考虑转换跑道成为数据科学家,2018年提供了充足的机会。这篇文章旨在帮助梳理如何在2018年成为数据科学家。

为了了解这个发展中的领域,2017年末365 Data Science针对这一主题在进行了调研。这项研究基于从1001名LinkedIn简介中目前职位为“数据科学家”的简历中收集的数据。这个群体被分为两组——就职于财富500强企业的人、以及就职于其他企业的人。此外,样本中数据科学家的工作地点包括美国(40%)英国(30%)印度(15%)以及其他国家(15%)。同时,为了控制偏差,数据收集自不同背景的数据科学家。

男性,至少会说一门外语,并且拥有本科以上学历(硕士或博士)。他拥有4.5年工作经验,并需要花2年来获得(数据科学家)这一头衔。R和Python是首选的编程语言,其次是SQL。

无法忽视,数据科学专业严重被男性掌控,在此次的样本中70%为男性。尽管如此,面对这一领域的巨大需求,只要具备相关知识,任何人都能在行业中拥有一席之地。所以,如果你碰巧是一位女性,不要灰心,请继续读下去。

数据科学家最必要的技能是什么?

以下是数据科学家简历中最常见的技能:

R和Python是数据科学领域的主流编程语言。53%的数据科学家声称掌握R以及/或Python。注意,在某些数据科学家在工作中同时掌握这两种语言。

在不断变化的数据科学世界中,专业人士要在工作中运用最新的工具。R和Python是最基础的编程语言,每个尝试想进入这一领域的人都应该学习。

Stack Overflow社区建议,尽管数据显示R是更为广泛应用的语言,但鉴于 Python是发展最为快速的编程语言,可以考虑将Python放在学习计划的首位。到2019年,Python很有可能会在使用人数方面大幅超越其他编程语言。灵活性和易用性是使得Python脱颖而出的首要原因。

在数据科学家中,其他受欢迎的语言是:

  • SQL(40%)
  • MATLAB (19%)
  • Java(18%)
  • C//C++(18%)

想学习更多?

我们发现,最好也能掌握SAS、LaTex、Hadoop或Tableau。拓展基础之外的专业技能可以显著提升获得数据科学家职位的机会。

工作经验

鉴于数据科学家这一职业诞生不久,也就不意外数据科学家职位经验的中位数只有2年。如果你是在无该领域相关经验的情况下申请数据科学家职位也不用尴尬,你不是一个人。

在此次研究的样本中,只有36%的数据科学家的前一份工作也是数据科学家。在这个领域中还有很大的成长空间。那另外64%的人之前的职位又是什么呢?最为常见的背景是分析师(19%)、IT专家(16%)或者学者(12%)。

并且,8%的人在成为数据科学家之前是实习生。
这些人从零开始实现了梦想。你也可以!

教育与培训

大多数以数据科学家为工作的专业人士受教育程度很高。实际上,结果显示75%的数据科学家不是博士就是硕士。

但是,华丽的学位并非必需。此次研究样本中,大约有25%的数据科学家毕业于“没有进入排名的大学”。换句话说,无论你的母校是否进入了“泰晤士高等教育”榜单(注:由《泰晤士报》评选出的世界顶尖大学排行榜),并不会为你是否能开始数据科学的职业生涯带来决定性影响。

此外,只有13%的人在大学中参与了数据科学或分析学项目。大多数数据科学家的所学专业是计算机科学(20%)统计学和数学(19%)社会科学(19%)。只要你在某一学科有足够的基础,就很有可能迈入数据科学的大门。

因此,你并不是一定要上额外的专业课程来掌握这个工作所需的技能。如果你想升级你的技能,在线课程也是可选的替代方案。近40%的数据科学家在其LinkedIn的个人简历中提到参与了在线课程。

就业行业

一旦你掌握了相关技能,你就需要撸起袖子找份工作。所以,数据科学家工作的首选行业是什么呢?在英国和美国的就业市场,你可以在产业企业(制造、快消、公共事业、咨询等)中找到数据科学家的工作。但在印度并不是这样,那里大多数(68%)的数据科学家在科技或IT企业工作。

医疗保健和金融行业看上去也需要数据科学家,在全部样本中分别占14%和6%。

就业企业

你是更想进入财富500强的巨头,还是更喜欢小型企业?无论企业层级如何,各种规模的企业都在招聘具备R、Python、SQL和Matlab编程能力的数据科学家。但是,如果你的目标是财富500强企业,SAS和Hadoop可能会派上用场。其他企业则很少会要求能够使用Hadoop。财富500强企业中,大数据为王,但对小型企业来讲并非如此。

这是数据科学职业在2017年底的情况和贯穿2018年的趋势。好消息是,即便你没有相关学历或足够的相关工作经验,也还来得及掌握相关技能和工具。如果你对数据和终生学习抱有热情,2018年是开始追求数据科学家职业生涯的好时机。

大数据的“无所不能”与“无能为力”

作者:TalkingData 于兰

本文由TalkingData原创,转载请获取授权。

偶尔与身处传统行业的朋友聊到大数据,朋友说,对大数据怀有一种“敬畏”的心理,认为它很神奇,神奇到似乎可以点石成金无所不能。但身处这个行业,在敬畏它的同时,却不时会被一种深深的无奈所包裹,切实感觉到在梦想面前,大数据也有太多的无能为力。所以今天,我们来聊一聊大数据的”无所不能“与”无能为力“

大数据的“无所不能”

无论是传统工业时代,还是大数据时代,信息是决策的基础:更优的决策,需要更多、更及时的信息——大数据的价值核心,是“消除信息不对称”,即提升人或程序对事物的认知。

因此,大数据可以做很多事情:

  • 在市场营销中,大数据可以帮助市场人员了解客户群体的特征、偏好和购买倾向——只将广告投给需要的人,可以节约被浪费的广告费,却不降低广告的效果;
  • 在金融风控中,大数据可以帮助业务人员了解顾客群体的收入水平、资产情况、借贷历史、违约风险——不向高风险顾客发放贷款,或事先对可疑人员进行核查、采取措施,可以有效降低坏账率,提升资产质量;
  • 在零售经营中,大数据可以帮助领导层了解各商圈的人流量情况、人群特征、周边环境、竞品策略等(是比现场调研更全面、更高效且成本更低的市场分析方案)——选择人流量、人群消费水平更符合本企业定位,且竞品并没有深入挖掘的地点开设新店,意味着在起步阶段就跑在了前面;
  • 在物流运输中,大数据可以帮助经营人员了解各地需求、线路业务量、节点负荷和处理效率——线路规划、节点布局及资源配置、关键节点优化,都可以有效的提升物流效率。

除了以上为企业带来切实利益的大数据应用,伴随着机器学习、人工智能的发展,大数据也为我们展开了更宏伟的蓝图:

  • 语音识别和文本挖掘,使得人与机器的自然交互突飞猛进,各种智能交互机器人层出不穷;
  • 图像识别和处理技术,结合线路规划、智能决策等大数据应用,让无人驾驶站在了时代的风口上;
  • 对各种疾病发展过程、影响因素的分析,及人体状态的监测、感应,形成了健康监护和智慧医疗的前提;
  • ……

一言概之,大数据为“信息获取”开辟了无数的通道,引领我们一路高歌猛进,依靠大数据,我们对周围的世界、对自身、对事物之间的关系都有了更深入的认知,也有了以前想都不敢想的各种处理方案,让我们“无所不能”。

但理想总是“丰满”,现实却是“骨感”,看上去“无所不能”的大数据,本身就带着诸多的“无能为力”。

大数据的“无能为力”

数据质量

伴随“多”的是“无序”,伴随“更多的信息”而来的,可能是“信息冗余”。数据质量,是数据应用之初与生俱来的问题。

要判断移动设备的常驻城市,可能从数据源A得到的是北京,从数据源B得到的天津,而我们压根儿没有明确的标准,来判断数据源A和B到底哪个正确,因为,正是因为不知道才需要寻求外部数据源帮助!

也许你会说,找已知样本测试就可以了。但事实上,很多数据且不说能不能找得到样本,即便能找得到,用作标准的样本本身有多大可信性,也是一个需要验证的问题。

隐私与安全

伴随着大数据的应用,越来越多的数据被“滥用”,隐私被泄漏的问题被曝光。数据应用的程度越高,经过的验证和磨砺越多,准确性越高,所受的监管也就越强,使用过程中所受限制就越多。

对于数据应用方来说,面临的可能是不断的寻找数据源、验证数据有效性、接受监管并调整、寻找新的数据源的过程。

站在数据应用方角度,面临客户隐私与数据安全,会时不时的有深深的“无力感”;但站在整个社会责任的角度,数据隐私与安全则是必须要守住的底线。

边界与壁垒

我们数据应用中的很多设想,都建立在各方数据可无缝打通和关联的基础上,但实际数据应用中,因为数据产生于不同的企业主体、有不同的处理流程和架构,“关联”并不是“无缝”的。

  • 千辛万苦找到了适合的数据源,可能因为双方ID无法打通,导致数据根本无法使用;
  • 战略合作训练了效果很好的模型,可能因为双方数据都无法出各自机房而无法实际投产,寻找绕行路线却又大大牺牲了效果;
  • 数据与场景的结合,可能因为合作双方理解差异导致数据的误用……

如何减少大数据的“无能为力”

首先,建立数据流通标准。“标准”可以在很大程度上解决“质量”的问题,也可以让供需双方更好的对话,降低数据流通的成本;

其次,划定数据安全基线。有“基线”,就有了“基线”范围内的自由和法律保护,将“隐私与安全”作为每一个市场玩家的底线,就不会在安全加码时束手无措倍受打击;

再次,构建数据流通平台。“平台”可以有效承载数据流通的标准,同时更好的打破供需双方的边界壁垒,实现供需有效结合。

TalkingData智能数据服务商城,致力于为数据供应方和数据需求方提供平台,实现数据流通过程中的标准化交付、质量评估、实时计量等公共能力,降低数据交易流通成本。

让理解照进现实,实现大数据的“无所不能”,我们一直在努力。

 

崔晓波出席爱分析中国大数据高峰论坛,总结改造行业的4大步骤

近日,TalkingData创始人兼CEO 崔晓波出席由北京爱分析科技有限公司主办的“2018·爱分析中国大数据高峰论坛”,并在会上做了题为数据智能应用和商业模式发展的演讲。

本次大会吸引了200多位行业精英与投资人共同参与,会议围绕着数据服务、大数据垂直应用、数据分析平台等多个领域进行了深入的探讨。

TalkingData创始人兼CEO 崔晓波

TalkingData创始人兼CEO 崔晓波在演讲中提到:“数据智能”在未来5到10年内是一个非常关键的概念。智能与数据相辅相成,如何运用好数据去创造智能,是企业需要在未来不断探索的方向。

同时,他又从五个方面剖析了 TalkingData 在大数据,特别是数据服务领域里的探索和思考。

一、中美市场的差异与联系

1、技术与基础设施差异

崔晓波认为:数据是链接中美智能应用的桥梁。

近两年来,TalkingData团队与世界最大的数据科学社区——Kaggle共同举办了两场活动。

第一场活动中,由TalkingData提供脱敏后的中国移动互联网行为数据集,邀请全球的数据科学家构建高准确率的人口属性预测模型。约有2600个团队参与了此次活动,共提交了约2万个模型。

通过研究可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识,因此中国真正缺乏的是针对如金融、地产、零售、互联网、工业等各种领域的相关知识,在这些领域里仍需要去长时间的探索。

目前,TalkingData又与Kaggle共同发起了名为:TalkingData 全球广告反欺诈算法大赛的活动。

TalkingData此次提供中国在广告反欺诈中遇到的大量相关问题和数据,而这正是很多国外的数据科学家难以遇到的。可以看出,中国在应用领域已经迈入前沿,但仍缺乏技术和基础设施。

2、数据安全上的差异

此外,中美在数据安全方面也有差异,崔晓波提到:真正拥有数据的企业不愿共享数据,而是选择垄断,因为很多技术问题尚未解决——如何安全的共享数据、以及数据合规等问题。

数据安全与网络安全情况迥异,企业IT系统由云、IDC以及内部网络构成,因此网络外面需要有一层边界,不能让黑客进来,但若该层边界都有问题,或企业出现内鬼,又如何保障数据安全呢?像 Facebook,其在数据安全上投入巨大,也出现了非常新的技术,例如可以通过网关看到企业所有的数据流动,信息如何从一点到另一点,又如何被使用。在这方面中国没有积累,技术上的差距有5到10年。

TalkingData 致力于解决这些问题,推出一套体系,在数据不流动的情况下也可以共享的解决方案。

业务的问题要回归技术,最终仍要用技术本身去解决问题,这是中国企业所欠缺的。因此崔晓波认为,中国下一阶段的数据服务需要突破技术的限制。

二、从实体物质化到虚拟数字化

崔晓波提到:“我们看世界的角度将从实体物质化转向数字虚拟化”。这将是未来的发展趋势。

未来是机器学习、深度学习的时代,Google 在2014年、2015年就将大量资源投入到机器学习研究中,因此在2016年,AlphaGo出现了。

AlphaGo将物理世界数字虚拟化,之后就可以用不断增长的计算机算法去加速学习过程,达到破局的效果。

但是在绝大部分领域还做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。

自动驾驶技术达到L5(完全自动驾驶)就会颠覆了原有行业,但在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类诊断,其价值就有限。

要达到产生颠覆的阶段,所需要的时间远比我们想像的要长。

崔晓波认为,大家现在对人工智能过于乐观,未来几年会有所回落,但技术本身是非常具有价值的。

TalkingData创始人兼CEO 崔晓波

三、大数据通过四个步骤改造一个行业

根据TalkingData的经验,不管何种行业都可以从四个步骤去进行改造。

  • 业务数据化
  • 应用场景化
  • 流程自动化
  • 决策智能化

首先是业务数据化

根据以往经验,很多传统行业的业务流程没有真正数据化,业务好或不好都没有一套数据体系、指标体系、方法论体系去进行评估管理,而“业务数据化”就是各种大数据、商业智能等技术搅合在一起的过程。

其次是应用场景化

这里特指数据应用的场景化——在完成数据化后,考虑用何种方法提升业务,用大数据、算法模型、机器学习的方法去做应用场景化。

但目前该过程还是更多基于人工,基于分析师对业务的了解或个人经验,中国90%以上的企业还处于这样的阶段,包括互联网企业。

第三是流程自动化

已经有一些头部企业走到了这一步,比如TalkingData正在合作的某餐饮企业,其拥有50人的数据团队,非常重视数据预测——卖多少汉堡、卖多少咖啡。在TalkingData的帮助下,其预测准确率已经达到95%以上,整个过程需要运用大量的数据,包括天气、路况、客流、历史交易等等。

该餐饮企业可以据此优化第二天的排班、供应链情况,计算下来一年节省上亿元的费用。

第四是决策智能化

TalkingData也为企业选址提供帮助,因为对于下线零售商来说,店铺位置也就决定了这家店是否能成功的百分之七八十。例如TalkingData为某客户提供的选址服务,通过客户提供的三年历史收入数据,经过建模和优化,不仅能够准确预测历史收入,还能够进一步预测新店未来三年的收入,并且实现了自动化预测。之前该企业有200人的选址团队,现在只需要20人,这是TalkingData帮助优化的结果。

以上几步完成后,还有一些头部企业进入到了效益数字化的阶段,当企业完成智能化后,已经有了很强的数据能力,这时企业开始考虑能否将该能力开放给其他企业,将其做成一些指标甚至是智能APP,提供给供应商和下游,甚至将业务切出来,再覆盖产业链中的中小企业。这也是TalkingData正在研究的一个模式。

四、数据智能演进的三个阶段

从TalkingData角度来看,数据智能的演进分为三个阶段:

1)Data到Analysis:拥有大量数据,帮助开发者做分析,但从数据到分析只是浅层次重复,无法形成闭环和带来效益提升。

2)Data到Action:走不通第一阶段,尝试下一步,看数据能做什么,比如是否能优化广告和营销。这在国外可行,但国内很难,因为中国拥有太多的不透明。诺大的网络有很多不透明的算法,将数据的算法逻辑都抵消掉了。

3)Data到Data Science:现在越来越多的企业走到第三个阶段,将数据变成数据模型,证明数据在什么地方对商业有价值。对于企业来说,模型比人工更具有优势,运用之后后以前能做50个产品现在能做500个,这就是提升。

通过Data到Data Science形成闭环,依赖模型持续提升效果,现在是大家的共识。

五、数据服务价值长期才能显现

数据回报定律是指在指数级世界里,数据对商业价值的回报都是加速的,TalkingData服务的所有企业都有这个趋势。

第一年看不到数据对商业有特别明显的回报,而在第二、第三年后就很明显。

TalkingData服务的很多客户都是例证,通过数据真的可以每年节省上亿费用或带来非常可观的回报。

但目前也有很多数据企业急于求成,对客户承诺三个月或半年即可产生帮助,但其实很难做到,结果一定是两三年以后才能显现。

TalkingData发布“透明化”Ad Tracking合作伙伴平台

TalkingData发布“透明化”Ad Tracking合作伙伴平台

基于TalkingData Ad Tracking移动广告监测平台数据,2017年,移动效果广告点击总量相比2016年增长超过17倍;移动效果广告推广激活总量同比增长41.9%,点击量增速远超激活,利用虚假点击刷量情况依然不容忽视。

过去一年,TalkingData Ad Tracking一直致力于打击黑产刷量,陆续曝光了一批刷量渠道以及相关作弊手段,并上线发布相关反作弊产品模块。《制衡刷量“四大术”,TalkingData Ad Tracking上线高级版作弊防护功能》

在统计相关刷量数据时,TalkingData Ad Tracking团队发现了大量监测短链套用现象,导致媒体、广告主、代理商之间出现了明显分歧。为了保证渠道合作伙伴的权益,更准确的量化渠道价值,2018年4月,TalkingData发布了“透明化”Ad Tracking合作伙伴平台,针对性解决监测短链套用问题,赋能于合作伙伴,打造公开透明的广告监测生态。

TalkingData Ad Tracking合作伙伴平台

合作伙伴可以通过平台监控渠道下所有推广活动,并进行审核操作,一旦发现套用情况,可将其立即拒绝,Ad Tracking系统将即刻停止接收推广活动数据,避免出现渠道数据统计偏差;

TalkingData发布“透明化”Ad Tracking合作伙伴平台

Ad Tracking合作伙伴平台Demo产品图

在解决监测短链套用问题的同时,TalkingData Ad Tracking合作伙伴平台还向广大合作伙伴提供了流量基本数据查看权限,合作伙伴可以直接通过平台了解推广活动广告流量及转化数据,避免了繁复的授权过程,缩减人力成本

TalkingData Ad Tracking将秉持以“客户优先”的企业价值观,持续加强产品功能,与各大广告平台保持牢固的合作伙伴关系,继续优化数据挖掘算法,与广告主、媒体、广告网络、代理商等携手打造更加透明的广告生态,推动行业向更加良性的方向发展。

即日起,已入驻TalkingData Ad Tracking的合作伙伴即可申请开通平台账户,开通方式:

  • 合作伙伴技术沟通群(优先)
  • 24小时值班电话:4008701230
  • TalkingData 技术支持群:203585475

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁马骥近日出席QCon全球软件开发大会北京站,并在会上做了以《2018,你不知道的前端黑科技》为主题的演讲。

QCon全球软件开发大会由极客邦科技与InfoQ中国主办,致力于分享和交流新技术在行业应用中的最新实践,助力企业技术选型、业务升级与顺利转型。本次北京站大会规模再创新高,汇聚来自300余家企业的2500余名技术人,其中80%以上的参会者为资深技术人;担任出品人及演讲嘉宾的技术专家超过200名,90%的专家拥有10年以上从业经验,多来自国内外行业领军企业和创新技术公司。

TalkingData马骥出席QCon,分享前端黑科技

QCon北京2018

在Web技术发展的近20年来,有高潮也有低谷。当遇到瓶颈时,必须要用创新的思路及想法去解决,才能形成突破。在大会次日的“技术创新与前沿应用专场”中,TalkingData研发副总裁马骥以《2018,你不知道的前端黑科技》为主题,分享TalkingData近几年在大数据Web开发中一些创新和突破,包括绘制百万行的数据表格、位置大数据地图矢量绘制、Web端数据科学实践及Web端并行计算框架设计。

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁 马骥

平滑流畅的绘制百万行数据表格

马骥表示,根据产品需求,要求以表格形式绘制百万条超大体量POI数据显示。首先遇到的瓶颈是DOM渲染,当数据量达到一万两万、甚至十几万的时候,表格非常卡顿,且CPU占用率极高。

通过排查,发现问题在于所使用的VUE框架下getter和setter所做的数据双向绑定。当所绑定的数据集非常大时,性能就会出现问题。

TalkingData马骥出席QCon,分享前端黑科技

最后改为使用Object.preventExtensions、Object.seal、Object.freeze(扩展对象、密封对象、冻结对象),解决了性能问题,实现了百万行表格的平滑展现,良好承载了对地图和表格之间很重的检索需求。最终效果是,当击右侧一行数据,对应的地图POI点可以高亮显示;反之,点击地图上POI点要显示在数据表格里对应的数据,交互体验超出预期。

Web端数据科学实践

1、自动化配色

马骥认为,自动化是web端很好的数据科学场景。在TalkingData去年开源的地图可视化组件InMap中,对通过自动化提升效率做了重点尝试。据分析,很多数据分析师要花30%的工作量去调整数据可视化的样式,比如调整地图的配色上,这对非设计专业的人来说非常痛苦。如果能提供自动化的配色方案,则会能在很大程度上降低这一成本。

TalkingData马骥出席QCon,分享前端黑科技

在TalkingData的实践中,要先对数据形态进行判断,用四分位以及平均数初步判断数据形态的分布和趋势,用大数据评估是指数型还是线型。然后用色谱通过获取面积等分点模型获取设置区间,最后通过自定义自动化完成自动配色。

2、异常数据检测

大数据永远都会有异常,而数据能否使用,需要进行检测,最基础的就是数据类型的检测。

马骥分享,TalkingData通过统计学模型——四分位的法则去做相对比较宽松的验证,比如四分位、上四分位和下四分位之间的三倍。

TalkingData马骥出席QCon,分享前端黑科技

针对其中最为复杂的异常位置数据检测,马骥带领的团队查询相关论文,将Python版本翻译成JavaScript版本实现,原理是计算两点一线的距离,当距离越大时则密度越低,当距离越小则密度越大,这样就可以将异常点计算出来。

Web端并行计算架构设计

马骥认为,web端的密集型计算是可视化的挑战,其瓶颈在于JavaScript本身,因为JavaScript是一个单线程语言,这就导致一方面CPU的利用率偏低,另一方面密集计算执行需要等待。

在TalkingData InMap的架构实践中,通过增加前端能力,通过前后端协同提升整体性能,进而将服务器端的很多能力转移到客户端去实现,使客户端也具有计算能力,实现业务逻辑和计算能力逐渐上移。

TalkingData马骥出席QCon,分享前端黑科技

InMap架构图

投资人群洞察报告

背景

  • 金融行业告别野蛮增长,进入存量客户的精细化运营时代
  • 精细化运营的目标之一是扩大资产规模,转向财富管理
  • 如何服务不同投资偏好的人群,TalkingData用数据分析给出建议

报告部分总结

  • 70后、90后热爱奢侈品的人群更有可能成为基金投资人群。与奢侈品平台进行异业合作可能成为首选。
  • 基金投资以及炒股人群中有杠杆交易行为的基金投资人群,更可能转化为财富管理客户。
  • 银行的大量理财客户同证券客户有较大重叠,先从此部分人群开始运营,收效比较显著。

研究目的:为什么要撰写本篇报告?

  • 在存量客户经营时代,线上业务如何服务财富管理人群,抓住互联网转型第二波浪潮?
  • TalkingData创新金融部从“投资人群”的洞察报告入手,专项分析投资人群中的“手机银行人群”、“基金理财人群”、“财富管理类人群”等人群,结合行业数据和TalkingData数据,为财富管理人群洞察和营销提供建议。

投资人群洞察报告

1.1 炒股人群理财属性

除了占比最高的证券投资属性以外,炒股人群偏爱的投资理财方式是货币基金,紧随其后的有财富管理,手机银行,借贷,直销保险等等。通过证券投资人群的前三名我们将在后面分析炒股人群分别与“手机银行人群”、“货币基金人群”、“财富管理人群”等人群的差异。

投资人群洞察报告

数据来源:TalkingData

1.2 投资人群分层模型

我们将金融行业中的理财金字塔概念放在本章用于解释报告的逻辑,但是因为分析的主题为人群而不是具体的投资产品,所以分层的依据为客群数量多少以及相对应的客户净值的高低。

  • 金字塔底层人群基数大但客户净值低,整体服务成本高,建议提供线上服务。
  • 金字塔顶层人群基数少但客户净值高,单个客户收益高,建议提供线下服务。
  • 针对每一个层次提供基于特殊的人群属性向上增销、转化、定位的建议。

投资人群洞察报告

2.1 手机银行客户分析

人群定义:该人群画像具有诸如有手机银行理财行为,或是手机上没有安装任何券商资讯、证券交易等APP的行为特点。

80后是炒股散户主力军

在使用了手机银行但是没有炒股偏好的人群中我们发现,90后、70后的比率更高,与后面的基金购买人群相似。且中年人群(46岁以上)在手机银行上的行为比炒股更频繁。券商需要思考如何将90后拉回来、如何保留住70后,银行则要思考如何为80后提供更好的投资服务。

投资人群洞察报告

数据来源:TalkingData

2.2 游戏无法填补我被割韭菜的忧伤

通过深度的游戏标签属性,我们可以发现,理财偏好为手机银行端且没有炒股相关APP的人群的更爱玩游戏,其中每天会有至少一次游戏行为的用户超过20%;而相比之下此类用户在炒股人群中仅占7.73%。高频游戏人群在手机银行人群中的比率为炒股人群中的近三倍。

手机银行理财人群的游戏付费意愿更高,有更多人在游戏中花费超过5000元。炒股人群不太热爱玩游戏,但针对手机银行理财人群,游戏化运营可能是一个不错的尝试。

投资人群洞察报告

数据来源:TalkingData

2.3 我与韭菜之间可能只差一个APP

通过分析炒股人群以及手机银行理财人群可以发现,炒股人群中几乎所有人都会关注财经资讯,而在银行理财人群中则只有不到5%的占比。但是两种人群都爱阅读科技资讯类读物。此外,炒股人群更多关注财富管理产品。券商与其在大流量平台买流量,不如在财经资讯类渠道投放广告,说不定会有惊喜。科技资讯和阅读可以作为一种服务,为银行客群提供更好用户体验。

投资人群洞察报告

数据来源:TalkingData

3.1 炒股人群洞察

人群定义:该人群画像为下载了诸如“东方财富网”、“同花顺”、“雪球”等股票资讯软件的移动端活跃人群,并经过过滤刷量、数据去重等数据处理后的“炒股偏好人群”。

KYC – 炒股人群性别分布

炒股人群中男性占比最大,超过74%的炒股人群为男性,超过全量数据的51%,将近四分之一。

券商移动APP的设计风格可以重点考虑男性客户需求,运营活动的话术需要简单明了,小清新风格不适合券商炒股人群。

券商的财经资讯在选择上需要偏向男性投资者需求,考虑增加政治、军事、科技、宏观经济等分析报告。

投资人群洞察报告

数据来源:TalkingData

3.2 KYC – 炒股人群年龄分布

炒股人群呈现年轻化,其中19-35岁的人群占比超过68%,相比在总人群中26%的占比超过一半还多。

券商APP的功能设计需要围绕年轻人群需求,不求界面复杂,但求简单明了,突出投资和交易特色。

年轻人重视客户体验、对活动响应率高,券商APP的色彩年轻化和深化活动运营有可能是个不错的尝试。

投资人群洞察报告

数据来自:TalkingData请点击此处输入图片描述

3.3 百度指数 – 炒股相关需求图谱

成功定位到炒股人群后。 如何精准触达这一群体?

通过在2018年2月的百度指数中搜索炒股人群以及其相关度,我们发现,搜索“炒股”的人群可能是爱奇艺、优酷的用户。喜欢玩GTA5(侠盗猎车5),常逛bilibili,也经常会去斗鱼或者虎牙观看直播。

这些行为在移动端也有一样的表现呢? 我们将在后面通过TalkingData的数据库进行验证。

投资人群洞察报告

数据来自:百度指数官网、TalkingData

3.4 进击的二次元

根据百度指数的数据,炒股人群中,使用b站的人数比率大大超过了总人群的使用比率,为垂直视频领域中占比最高的网站。

比起爱奇艺,炒股人群更偏爱使用优酷作为主要的视频观看媒介,印证了百度趋势的相关度。

营销上,结合TalkingData在金融广告投放方面的经验,建议在优酷上可以进行以品牌曝光为主的投放。

投资人群洞察报告

数据来源:TalkingData

3.5 老铁,火箭走一波!

炒股人群中,不管是使用斗鱼还是虎牙直播的用户明显比率更高。印证了百度趋势的相关度。

尽管虎牙以及斗鱼是知名的游戏弹幕直播平台,但在虎牙以及斗鱼上直播分享理财知识的也大有人在。其他品牌已经在进行流量渗透了,你呢?

投资人群洞察报告

数据来源:TalkingData

3.6 成不了富翁,我们还有GTA5

在游戏偏好中我们发现,炒股人群中喜爱动作射击类游戏(亦如GTA5)的人群占比远远不及总人群。为什么呢?

进一步研究我们发现,GTA5内置炒股系统(线上为BAWSAQ,单机为LCN)。许多搜索“炒股”关键词的人其实是在搜索GTA5游戏中的股票,这也就解释了为什么关键字“炒股”与“GTA5”关联度高,但是炒股人群对动作射击类游戏偏好较低。

3.7 投资是一种信仰,从天天德州开始

相较于总人群,炒股人群的游戏属性较弱,比较偏爱扑克棋牌、经营、策略类游戏。与投资、经营有关的游戏更受炒股人群的喜爱。比如天天德州。

可以结合三方数据找出有投资、经营类游戏行为的人群,进行定向投放或者异业合作。

投资人群洞察报告

数据来源:TalkingData

3.8 入的了贵宾厅,出得了地铁站,骑得了小黄车

炒股人群有明显的商旅特征,包括更显著的酒店、公交出行以及航空出行类应用偏好。共享单车的使用比率也略高于总人群。券商无法像银行信用卡一样通过商旅权益吸引客户,但是因为券商的展业代理人一般会银行网点驻场,那么选择商旅权益较好的信用卡的银行网点驻场在开户获客上或许会更高效。

投资人群洞察报告

数据来源:TalkingData

3.9 上班艰苦阻挡不了我对股票的热情

炒股人群设备活跃时段是比较典型的上班族活跃曲线,白天的活跃时段波段比较平稳,在下午的一点到五点会有比较小幅度的缩减。

早晨活跃时段开始于早上六点,在十点左右达到峰值。晚上的峰值在八点左右,在晚上十点左右开始出现下降,凌晨五点左右到达一天最低谷。可以结合券商公众号的运营团队,将公众号发布的时间设定为 早上十点或晚上八点为图文触达最佳时机。

投资人群洞察报告

数据来源:TalkingData

通过以上炒股人群的行为特征,我们可以大致描绘出炒股人群的一天。

投资人群洞察报告

4 . 基金人群

基金理财人群定义:在TalkingData数据中有“基金理财”标签的人群,该类人群画像具有下载了诸如“财富通”、“陆金所”等基金理财相关APP,或是证券交易用户,或有其他基金理财性质行为特点。

4.1 70后、90后更乐意购买基金

基金人群与炒股人群高度相关(基金理财人群中大部分都是炒股人群,或者说大部分是从炒股人群中转型的)。我们尝试去找出“货币基金人群”和“炒股人群”的差别,为“如何将炒股人群”转化为“基金购买人群”的课题提供数据驱动决策的指导。

我们发现基金人群在19-25岁、36-55岁的维度占比更高。可以总结出,80后更偏爱个人决策炒股,90后、70后更偏向将资金交给基金。

投资人群洞察报告

数据来源:TalkingData

4.2 买过最奢侈的东西就是基金了

通过下图我们可以发现,相较于炒股人群,基金人群在消费定位上更偏好奢侈品以及高端品牌。可以总结出,基金人群平均净值比平均炒股人群高,或者说炒股人群中净值高且有奢侈品消费行为的人群更容易转化为基金客户。通过与奢侈品平台进行异业合作既能为品牌提升声誉,投放的TGI可能也会更高。

投资人群洞察报告

数据来源:TalkingData

4.3基金人群更偏爱BATJ承载的产品

在内容分享类APP中,知乎在两种人群的使用比率都较高。此外,垂直类视频网站中,基金人群更偏爱咪咕影院,炒股人群更偏爱bilibili。货币基金APP中,炒股人群偏好使用陆金所浏览或者购买基金,而基金人群中排名第一的基金类APP为京东金融。炒股人群的资讯阅读偏好比较偏冷门的澎湃,而基金人群喜爱偏大众的QQ阅读。用知乎承载金融大牛的报告输出,说不定会比闷头写投研更高效。

投资人群洞察报告

数据来源:TalkingData

财富管理人群定义:在TalkingData数据中有财富管理偏好标签的人群,该人群画像具有下载了诸如“蚂蚁聚宝”等相关APP、并且经常活动区域为CBD等商务区域的特征。

5 . 财富管理人群

5.1 我是八零后,我为我的股票账户代言

财富管理人群中年龄分布与基金理财人群比较类似,相比基金人群,70后、90后的占比更高,80后的占比更低。

80后生活负担和压力较大,更多的人期望通过股票投资来获取更高的收入,其投资偏好比较激进,偏爱高风险高收益。

80后处于财富积累加速上升的通道,券商需要适当引导80后的投资理念,从长期收益和资产配置角度来进行理财规划。

投资人群洞察报告

数据来源:TalkingData

5.2 杠杆加起来,黄金屯起来

总体分析,财富管理人群与炒股人群的金融理财偏好相当,但是数据分析发现偏向财富管理的人群有更高的借贷属性,甚至在贵金属投资中的占比是炒股人群的6-7倍。

在风险更高的期货以及外汇上,两类人群偏好同样较低。可以总结出,财富管理类人群更加偏好中等风险投资,特别是自带杠杆的贵金属投资。结合贵金属交易频度可以从客户行为数据找出潜在的财富管理类用户。

投资人群洞察报告

数据来源:TalkingData

5.3 财富管理人群周末消费地与深圳市民对比

通过财富管理人群与深圳普通市民的周末消费地点的线下POI热力图对比,我们可以发现,财富管理人群主要出现在南山欢乐颂、清华大学园以及布吉附近。与我们假设的“CBD等商务区域”偏好相差甚远。

与一般市民聚集于罗湖相比,大部分财富管理人群周末都聚集在南山(科技园区所在地),以及郊区的高端住宅区。可以总结出,其实有财富管理偏好的人群周末比较宅,更喜欢与家人共度休闲时光。

投资人群洞察报告

财富管理人群2018年1-2月深圳周末消费地点(4点-6点)

投资人群洞察报告

深圳市民2018年1-2月深圳周末消费地点(4点-6点)

投资人群洞察报告

深度人群洞察咨询,请联系——

400-870-1230

support@tendcloud.com

热点观察站丨初探网约车江湖的头号玩家

图片来源于网络

江湖笑,恩怨了,人过招,笑藏刀

红尘笑,笑寂寥,心太高,到不了

江湖笑周华健 – 雨人

在“唠嗑”前,借助这首《江湖笑》来描述当下的网约车市场再适合不过。继美团打车登陆上海、高德推出顺风车、嘀嗒出行再开九城,易到宣布调整公司业务模式,提升优惠力度,各网约车平台摩拳擦掌,如今在线旅游平台携程也将开始自营网约车。沉寂许久的网约车江湖,再次掀起掀起腥风血雨,刀光剑影、江湖从此不再太平。

网约车互联网热度趋势曲线

数据来源:百度指数

数据来源:百度指数

基于百度搜索“网约车”关键词趋势曲线,我们可以很明显的看到从2月节后,各大势力逐渐杀入市场带来的关注增量,在2018年4月4日达到半年以来的最高峰。随着事件的升级和关注度增加,媒体结合网约车的报道相继猛增,同时介于江湖再次掀起波澜,价格战马甲车制度管制等话题愈演愈烈,也让“网约车”媒体指数在近期达到了顶峰。

谁是网约车江湖里的头号玩家?

在此番江湖纷争中,“门众”(司机)的争夺再次成为众矢之的,各门派则需绞尽脑汁,以各种赏金或机制招募“门众”。据悉,美团打车祭出的“促销组合拳”包括:上线前3个月,对快车司机“零抽成”,之后收取8%的佣金(其他平台一般抽成20%);快车乘客也有实惠,前三单每单可减14元;出租车驾驶员推荐一名同行加入并完成两单,可获一次性奖励20元,乘客每单能减免3元。

与此同时,“滴滴出行”则一连几天给乘客发短信送“福利”:先送18元打车券,再送3张10元立减券;双休日叫响“越打越便宜”的口号,乘客前4程依次可减8-11元;从周二起连续三天,直接抛出了“0元打车享不停”。

不过和小说中的江湖门派有所不同的是,此“门众”可在各大门派中游走,随时可寻求高佣金、高福利的门派。从而,“门众”则成为这条利益链中的头号玩家。欢迎来到本期的《热点观察站》,我们今天暂且搁下江湖门派的恩怨情仇,借助TalkingData营销云,初探网约车江湖中的“头号玩家”——司机,看看他们究竟是一个怎样的群体。

网约车“女侠” 为何仅占比17.55%?

图片来源于网络

数据来源:TalkingData

网约车女司机占比仅为17.55%,究其原因可以从三点进行解读,其一,安全性,毕竟“拉活”在外,无法保证顾客的素质与乘车目的,顾虑自身安全是女性成为网约车司机的关键因素;其二,车内整洁,相比男性、女性对车内整洁有着更高的要求,对于“外人”给车内带来的异物或污渍等有一定的排斥性;其三,社会上对女性司机有一定的驾驶偏见。

不过根据某网约车平台的评价体系数据呈现,乘客对女司机评价最多的三个词语为:车内整洁服务态度好驾驶平稳“女性相对来说比较细心,对自己的车容车貌和服务态度都有要求,也懂得控制情绪,这也许是获得高分的原因。”(来源于媒体对女性网约车司机的采访描述)。

数据来源:TalkingData

从年龄层上来看,19-35岁互联网人群为网约车司机的主力军,同时也不乏36-45岁的老司机。

网约车司机为何会偏爱中高端手机?

数据来源:TalkingData

数据来源:TalkingData

影响“抢单”的因素不仅取决与个人的意识和手速,手机的流畅性与移动网速也至关重要,所以手机对于网约车司机有着更深层次的使用价值。在运营商分布与联网方式方面,中国移动占比56.04%、中国联通占比21.86%、中国电信占比20.85%;联网方式75.77%为4G网络,高出2017年移动互联网人群6.47个百分点,这也侧面印证移动网络是网约车司机们的刚需,同时4G的资费的优惠政策,也是4G网络大规模普及的原因之一。

2000-3999元中高端机型是网约车司机们的首选,整体占比47.54%,高出2017年移动互联网人群3.94个百分点(详见TalkingData-2017年移动互联网行业发展报告)。在这个价位的手机中“屏幕尺寸”、“硬件性能”相对更能满足他们的需求。从手机品牌上来看,网约车司机们更青睐OPPO,其次是vivo华为

哪类应用更能触达到网约车司机?

数据来源:TalkingData

通过数据,我们可以看到网约车司机在“出行”、“汽车服务”应用品类上有较强的覆盖率和TGI偏好,汽车服务更多在于”查违章”、“汽车保养”类应用,这与其人群特征有着较强的关联。同时不难发现,他们对于房产医疗餐饮金融理财也有着较强的兴趣偏好。其中,餐饮以O2O外卖为主,房产则更偏向于租房细分品类。

加班热点工作区&夜生活区域热力图

数据来源:TalkingData

与其说是北京网约车司机凌晨(22时-次日6时)热力图,倒不如说是“北京加班热点区域”和“北京夜生活区域热力图”。工作区主要集中在国贸东直门望京上地中关村等区域,夜生活区域主要集中在后海三里屯等地,而在夜间相关交通枢纽及机场、火车站也是热门区域。

我们通过“人群属性”、“设备属性”、“媒介偏好”、“线下热力图”四个维度,进行网约车司机人群画像初步探索,如果你还想了解“同时采用多款打车设备的司机占比”、“网约车司机手机机型TOP榜单”、“不同时间段应用偏好”等更详细的数据维度——

请了解TalkingData营销云产品。

技术专栏丨Carbondata研究与阶段性压测


一、CarbonData简介

Apache CarbonData 是一种有索引的列存储格式。它非常适合于做即席 OLAP 查询。因为独特的 MDK 索引设计,能达到的极好的剪枝效果。相比于 parquet 等其他的列存储格式,性能有极大的提升。
Apache CarbonData 是由华为贡献给 apache 社区,目前已经是 apache 顶级项目。CarbonData 目前应用于华为的多个解决方案中,用于分析运营商的海量的信令面、用户面、控制面的详单数据。详单数据数据量达到数千亿,每条记录都是多维度的。CarbonData 用于这些海量数据的实时聚合分析。
除了华为之外,在美团、滴滴、hulu 等公司的生产环境中也得到了使用。目前 CarbonData 项目 intel、ebay、VMWare、美团、Talend等公司也有人积极参与贡献。比如 CarbonData 的 flink connector、spark streaming connector 等功能都是由华为之外的其他人贡献的。
 

二、CarbonData架构

2.1. CarbonData文件格式
CarbonData 文件格式如下:
 
一个 HDFS block 中会分为多个 blocklet。Blocklet 是文件内的列存数据块,是最小的 IO 读取单元。Column chunk 是 Blocklet 内的列数据。Page 是 Column chunk 内的数据页,是最小的解码单元。
File header 中存放元数据信息,包括 version 和 schema。
Footer 中存放 Blocklet offset、索引、统计信息。统计信息包括 blocklet的 min 和 max, page 的 min 和 max。索引存放的是 blocklet 的 startkey 和 endkey。
下图更为详细:
 
2.2. MDK索引原理
 
CarbonData 索引叫做 MDK 索引,即 Multi Dimension Key。如上图所示,year,Quarter,month,territory,country 这五个是 dimension,quantity 和 sales 是度量。维度进行字典编码,并对进行排序。然后存放到 blocklet 中。
存放于 blocklet 时,会同时把刚才提到的 startkey 和 endkey 存放好。如下图所示:
 
 
2.3. 索引查找过程
CarbonData 有两级索引。第一级索引是 block index ,存放于 spark driver 中。是一个 global B+ 树。使用这个索引避免扫描不必要的文件,可以减少95%的扫描量。
第二级索引是 blocklet 索引,用于过滤掉不必要的 blocklet。
一个完整的过滤如下图所示:
 
以我们的测试结果为例,我们的 action 表是18.55亿条记录,我们的 profile 表是415万条记录。做一个复杂的查询,做3个join和3个 group by。CarbonData 需要扫描的数据量仅为53.1 MB,而 parquet 需要扫描的数据量则为 5.5G。而且 action 表数据量翻了3倍,CarbonData 需要扫描的数据量仍然为 53M。所以说,数据量越大,CarbonData 相比 parquet 的性能优越性越大。
 
CarbonData:
Parquet:
2.4. CarbonData其他优化
CarbonData 还有些其他优化,这里只简单列举。延迟解码、向量化处理、预聚合表、partition 表(比 hive/spark 中的 partition 功能要强大很多,可以理解为索引,这里不详细讲解)、compaction、bucket、segment(我理解 segment 对优化意义不大,partition 更强大)等等。
2.5. CarbonData中对我们有用的新功能
Streaming Ingestion
目前支持 spark structured streaming,可以支持流式处理完数据后流式写入到 CarbonData 表中,这个功能是对我们有用的,需要后续研究。
Update &delete
CarbonData 目前支持 update 和 dalete。对我们也是有意义的。经过测试,update 可以运行,但是结果不对。可能需要跟社区讨论。

三、我们的性能测试结果

环境:
用了3台 40C128G,磁盘的 iops 在2000多。
不过我没用全部,总共用了 91vcore 264 GB。
第一次性能测试:
Action 表6亿多,profile 表200多万。从 ES 中通过代码导入到 CarbonData 中。
测试例子:
按学历统计近半年事件“event7”的触发次数。
且触发此事件的访客的性别需要为男,最近所在城市为“北京”;
且触发此事件的访客最近一个月访问了“com.android.dazhihui.view.screen.NewInitScreen10”活动页面(至少有1次访问时长超过10s);
且触发此事件的访客最近一周触发了“event7”事件(至多触发100次 label 为“label8”)
该语句翻译为了3个 join 和3个 group by。
需要8s左右,scan 数据量为 53M。
第二次性能测试:
Action 表18.55亿,profile 表415万。从 ES 中通过代码导入到 CarbonData 中。
语句同测试一。
该语句翻译为了3个 join 和3个 group by。
还是需要8s左右,scan 数据量仍然为 53M。
第三次性能测试:
在第二次性能测试基础上,同时并发6个同样的查询。
每个查询在8s-14s之间,性能稳定。
相比 ES 的存储,CarbonData 只使用约8.X%的存储。

四、Streaming ingest

把es的数据导出为 parquet,然后使用 structured streaming 流式写入到 CarbonData 中。经过调试,最终能调试通过。使用1个 executor 2C6G 进行性能测试。1S能够写入10万条记录到 CarbonData中。性能还是不错的。
同时,CarbonData 也支持 spark streaming ingest。
五、Update
CarbonData 有 update 的能力。但是 CarbonData 的目标是 OLAP/small scan/full scan。不适合于做 OLTP。
所以 profile 功能不能直接部署于CarbonData.目前想到的办法是 profile 功能放到 kudu 中。然后从 kudu 中周期性加载到 CarbonData 中。这个功能后续还需要继续研究。

六、兼容性

CarbonData 是基于 spark。CarbonData 1.3 可以兼容 spark 2.1 和 spark 2.2。
只要大数据发行版支持 spark 2.1 和 spark 2.2,就可以兼容 CarbonData.
1)与 CDH 兼容性
CDH 版本和 spark 是松耦合的。CDH 出的 spark 2 parcel 包可以用于多个 CDH 版本。
同时,CDH 还可以支持 apache spark 作为他的 gateway。
所以 CDH 与 CarbonData 是兼容的。
2)与华为兼容性
华为 fusioninsight 本身就包含 CarbonData。
所以华为与 CarbonData 是兼容的。
3)与星环兼容性
星环中包括两个 spark。Inceptor 是他们的定制 spark。
Discover 是完全开源的 spark。
我们 的CarbonData 可以运行于 discover spark 之上。

七、后续工作

后续还要增加工作:
action 表记录数达到百亿级别,继续进行性能测试。
目前我觉得应该还有性能优化的空间。

新零售:不是新概念的新趋势 | 博鳌亚洲论坛见闻录②

近日,博鳌亚洲论坛2018年年会在海南博鳌举办。大会以“开放创新的亚洲 · 繁荣发展的世界”为主题,汇聚来自50个国家的2000余名商业领袖,习近平主席也出席10日的大会开幕式并发表重要演讲。

TalkingData高级副总裁支宝才作为代表参加了此次博鳌亚洲论坛,并重点关注互联网、数字经济、新零售、新金融等话题。在上一篇文章(《遇见凯文•凯利 | 博鳌亚洲论坛见闻录①》)中阐述了人工智能(AI)的知识和观点。在本文中,他将再次结合自己的见解,和大家一起分享关于新零售领域的观点。

“创新”是本次博鳌论坛的主题之一(另一个主题是开放,中心思想是利益共同体——Share Future)。大会分论坛的议题安排也是两类,一半是未来的亚洲、全球化后半场、一带一路、宗教文化等宏观话题;一半是技术创新和产业相关的话题,例如未来的技术革命、人工智能、未来的互联网、共享经济等。

新零售(主题是:新概念还是新趋势)与新金融(主题是:改变还是被改变)是为数不多的“传统”行业主题,这也与TalkingData重点关注的行业不谋而合。

新零售论坛安排在会议第三天,邀请网红KOL吴伯凡先生主持,国美董事长何阳青、大龙网创始人冯剑峰、凯德总裁Lim Ming Yan、波士顿咨询全球主席Hans Burkner、花点时间创始人朱月怡、跨国电商平台大龙网CEO易青作为嘉宾。

博鳌亚洲论坛新零售主题圆桌会议   图片来源:博鳌亚洲论坛

虽然这个分论坛时间并不长,但传统零售、新电商和跨境电商、第三方行业专家同场交流,跨界的思维碰撞还是给了我很多启发。本文不赘述具体发言内容,而是会结合TalkingData为零售企业服务过程中的一些经验,针对三个问题分享一下我的思考。

(一)新零售到底“新”在哪里?

新零售其实并不是一个“新”概念,前些年电商崛起的时候,行业也在普遍讨论“新零售”,那时的“新零售”的内涵是从线下到线上,那么现在的“新零售”到底“新”在哪里呢?

我认为“新”在以下三个方面:

  • 新关系传统线下商家与消费者关系的转变,将传统一次性消费的买卖关系转变成持续性客户关系。利用技术手段,实现客户从“无记名”消费到“记名”消费,从关注单次交易的达成到关注客户的交互渠道、消费频次和综合消费体验。
  • 新技术现在新零售的另外一个特点是大量应用新技术,如大数据、人工智能、机器人和自动化、IoT和新支付手段等,在持续为行业升级赋能。
  • 新模式通过线上和线下的融合(OMO)重新定义人、货、场的关系,将带来更多的零售差异化业务模式创新。
亚马逊无人零售店:Amazon Go  图片来源:Amazon

(二)为什么会有新零售?

零售行业是国内发展最快、市场开放程度最高、也是竞争最激烈的行业之一。电子商务对传统零售行业的冲击仍在继续,行业格局初定,那么为什么又会有“新零售”的发生?以及新零售为什么会发生在中国?

我认为有三个方面的原因:

  • 普遍移动互联网化的消费者:跨越年龄、性别和区域的社交平台、电商平台、支付平台的习惯性用户——也就是“新的消费者”,是本次新零售能够发生的基础。
  • 基础设施的成熟与新技术的驱动:前面提到的新技术既是新零售的特点,也是触发新零售升级的驱动要素,同时生产环节、物流配送、支付体系、通讯网络、基础设施等方面的成熟也是新零售发生的前提条件。
  • 进击的“巨人”和传统企业的反抗:本次新零售的发生,国外亚马逊等示范效应,国内阿里、腾讯和京东等电商和互联网巨头的推动是主要动因,同时传统零售行业巨头以及品牌商希望加强线上能力、摆脱不利竞争局面的需求也是驱动因素。
电商和互联网巨头冲击下的“新零售”  图片来源:TalkingData整理

(三)新零售会带来哪些影响?

新零售的本质还是一次行业升级,但是在资本、技术和行业巨头的多重因素推动下,还是会对行业带来非常深远的影响。

主要体现在如下几个方面:

  • 行业洗牌和格局重构:本次新零售将带来产业格局的改变,一方面大量资本涌入,行业并购和重组频繁发生,新零售在一定程度上就是互联网巨头圈地和传统零售商突围的游戏,可以预见也将产生创新型行业新星,零售行业格局在短时间内将被重构。
  • 零售行业边界的拓展:新零售自身的跨界融合和新技术应用的特点,将在一定程度上拓展零售行业的边界,零售行业与互联网行业、零售行业与科技产业、零售行业与其他相关产业如生产和物流等的边界将趋向模糊,出现更多的融合。
  • 零售价值链创新:新零售将在一定程度上重新定义行业价值链,包括行业竞争合作关系,以及与客户的关系。例如在本次论坛上,国美董事长何阳青提出的“从传统家电销售安装,进入到售后服务领域(如帮助客户进行家电的定期保养)并关注售后客户大数据”就是很好的例证。

(四)零售企业应该怎么做?

新零售看似方兴未艾,其实来势汹汹。在服务零售行业上积累了丰富经验后,TalkingData提出了D2D方法论,(具体可参考文章:《TalkingData D2D:从“数字化”到“数字化” –以数据的智能驱动零售行业的数字化转型》)针对性帮助零售企业提升数字化运营能力,更好的把握新零售的产业升级的发展机遇。

搭建三级标签体系,提效证券App运营

3A3R数字运营指标体系介绍

3A3R模型是Awareness、Acquisition、Activation、Retention、Revenue、Refer这六个单词的缩写,分别对应用户生命周期中的5个重要环节,是移动App在基础运营体系建设广受认可的方法论。证券行业的3A3R运营指标体系由国泰君安发布,细化了3A3R指标体系在证券行业的应用,适合证券行业移动运营使用:

1、Awareness,用户感知

反映应用产品本身及移动化服务的定位、市场知名度、美誉度、规模的考量标准,其目的是扩大对目标客群的影响:如品牌宣传、媒体曝光和营销活动等。

2、Acquisition,用户获取

反映了从市场上获取用户并促使其注册及转化的情况,需要运营者不断提升流量转化做大用户群:如通过合适的渠道付费引流,或从尽可能多的跨界合作汇总获得新的用户群体。

3、Activation,用户活跃

用户活跃类指标反映了每日登录应用的用户数量和应用本身对用户的价值。在目前的市场环境下,相比自然增长,很多用户是通过终端预装、广告推广等不同形式被动进入应用的,如何促进这些用户从获取走向活跃,是运营者面临的第一个问题。

4、Retention,用户留存

用户在保持了一定活跃度后,流失的可能性也会增大,这个时候要通过用户留存来观察其对应用的使用情况。通常,保留一个老客户的成本要远远低于获取一个新客户的成本。为了保持用户持久的活跃,需要通过日留存率、周留存率、月留存率等指标来监控应用的用户流失情况,并采取相应的手段在用户流失之前,激励这些用户继续使用应用。

5、Revenue,收入

获取收入,是移动App运营最重要、核心的指标,是衡量所有运营行为最终导向的考量标准。移动App获取收入的定义有很多,主要有三种模式:付费应用及应用内付费、以及广告。付费应用及应用内付费在游戏行业应用较多,电商和广告的变现模式是较为常见的收入来源,而应用内付费目前在游戏行业应用比较多。无论是以上哪一种,收入都直接或间接来自用户。所以,前面所提的提高活跃度、提高留存率等用户体验指标,对获取收入来说是必需的基础。

6、Refer,传播

社交化媒体的兴起,使互联网运营增加了传播方面的考量标准,依靠创意内容,基于社交网络的扩散甚至病毒式传播,已经成为低成本获取用户的有效途径。从自传播到再次获取新用户,应用运营能够自生形成螺旋式上升的轨道。在互联网金融领域,一部分优秀的移动App已经在社交化媒体营销上赢得了不少潜在用户群体的好感度。

3A3R数字运营指标体系与用户生命周期的关联可参照图1。从对用户的洞察、建立企业品牌认知开始,到客户贡献收到,再到将客户发展成主动为产品传播的价值客户,贯穿了从交互行为走向交易行为的过程。

图1

App行为数据的标签体系建立

对运营人员而言,标签是将用户的交互、交易数据“翻译”成人本画像的语言,基于标签实现用户及客群洞察和全生命周期的分群、分层管理,实现精准营销和运营,面对用户多样化、行为习惯碎片化造成的“不可测”、“千人千面的不确定性”,利用合理可用、不断迭代的用户标签体系来进行运营和营销,是最有效的破解法则。

然而,目前在绝大多数金融类移动App的实际运营场景中,对用户交互行为相关数据的利用并不充分。金融App中相对成熟的是交易数据及交易类标签,但仅有交易行为的数据标签,并不能代表用户的全部潜力,需结合其在交易之前的阶段,衡量其在App上的活跃度,建立行为标签,进行产品推荐和精准触达,从而将其转化到生命周期的下一阶段。

例如,在交易数据指导下的用户标签一般是围绕“开户”、“入金”等资产性质的特征建立,对用户的营销也都围绕提升其入金额度或交易频次,营销抓手固定但相对单一。加入用户的交互行为标签后,则能够对其停留页面、活动喜好、学习特征等层面进行把握,用户画像贴近其投资理财习惯。

在证券行业建立标签体系的过程中,标签梳理的过程极为关键,需要从交互、交易两大层面出发,对用户行为的相关属性先进行界定,再进行拆解,最终落实于具体的平台系统中去。

例如,运营人员为某大型券商建设线上交互行为属性标签时,将标签按颗粒度划分为一级标签、二级标签,根据具体业务需求继续细化至三级标签,便于为日后业务提供灵活支持,减少后续自定义标签的难度。下表为App建设行为属性标签时的一些通用维度的示例,由于二级标签内容非常多,本次研究就仅仅列举三个作为参考。

而对于券商本身CRM系统中既有的基础标签,也应按相应颗粒度统一纳入体系,一些通用维度示例如下,本次研究就仅仅列举三个作为参考。

融入行为数据的标签体系的建立,解决了对用户是否能全方位地定位、分群分层级管理和营销的难题。体系建立完善后,应落实于具体的用户运营平台,最大化提升运营人员在进行客户管理时定位人群的效率。

依托运营平台,运营人员基于业务需求出发,在系统中点选相应维度的一级、二级、三级标签,定义好时间,即可生成相应的用户人群名单及画像,运营平台还应对接券商App的推送系统,生成名单后支持一键发送,迅速完成营销行为。

基础标签体系和平台的完善,有助于运营人员将“场景化营销”落到实处。基于证券App中的绑卡入金、购买理财、证券交易、基金买卖、贵金属购买等都是客户最典型的交易场景,分析这些业务在App中的交易路径(交易步骤),在接近交易路径的前几步,根据时间、频次、结果等选取基础标签,构建场景化标签,促进营销转化。

1、一个月内下载App后未绑定交易账户群体

希望促进“一个月内下载App后未绑定交易账户群体”的转化,可通过定位“首启时间”、“是否注册”、“是否交易”等标签定位和搜寻人群,之后对其开展转化营销行动,或移交数据分析人员继续分析其未开户原因。

2、有交易意愿但未入市群体

运营人员可根据交互标签“最近一月”、“查询XX板块”、“添加自选股”、“未交易”等标签,探索存在交易意愿但未入市群体,调研其未入市原因,是资讯不够?还是功能使用不够顺畅?还是资金缺少?针对原因对其开展投资教育和相关资讯的补助推送,解决用户问题,提升转化效率。

3、点击关注融资融券但是没有申请群体

运营人员可根据交互标签的组合,“最近一月”、“点击融资融券”、“点击次数超过3次”、“未申请”等标签,将具有融资融券客户倾向用户筛选出来,依据客户的风险等级提供相应的融资融券服务,利用人工客户进行推荐的方式转化率比较高。

标签体系的升级阶段,是融合第三方数据和标签特征,为其增加外部特征的描述,诸如航旅、娱乐、资讯、生活、电商等标签。运营人员可以通过外部数据和标签的辅助,了解用户在现实生活中所处的形象和生命阶段,建立起对用户更为丰富的认知,为其实现更精准的资产增值服务。

综上所述,完整的App用户标签体系的建立,一般会经历交易标签—交互和交易标签—三方标签的建设阶段。其中,实现交互数据和交易数据打通,为用户建立行为标签,拓展场景化营销,是挖掘App价值的关键一步。

基于行为数据标签的营销案例

用户在移动App上的交互行为充分体现了其在交易特征之外的场景下,能够有效洞察其对功能和营销活动的喜好。企业过去的营销主要依托交易数据,典型的做法有数据库营销中的关联分析和交叉销售。

交易数据对营销具有巨大价值,但企业在这方面的探索已经趋于成熟,对交易客户的把控仅限于“交易成功与否”的边界判断。而行为数据则更关注客户对某些特定行为发生的次数和趋势,这部分数据的稳定性不如交易数据,但同客户的偏好、兴趣、未来趋势有较大的正相关度,经过标签化之后,可以用于有效营销。即便是较低的转化率,基于其庞大的基数,经过反复尝试,可以取得令人满意的效果;不成交、不活跃的数据,也可以积累下来用于二次营销。

基于用户股票偏好的营销案例

在进行券商App的运营时,运营人员收集股票用户在一段时间内对股票板块的偏好,选取一定时间单位内对某些板块存在反复点击、查阅行为的用户群体,为其在标签系统中标记板块偏好类标签,如基建、券商、一带一路等,用于分类营销;结合市场及大盘,为这些客户群体推送其关注的板块变动情况及新闻资讯。将该类运营策略的关注重点和实际流程图表化后如图2。

图2

之后,可以结合该类用户群体的历史资产峰值、现值资产、交易状况确定其资产属性,确认其在流失预测模型中是否属于高价值群体、易流失群体,继续判断是否对其采用更加精准的营销方式。

在实际运营的多次尝试中发现,收到推送讯息一周后,打开并阅读推送的目标用户群体中,在一周之内交易过推送板块关联股票的相关用户,产生入金、交易行为的平均比例,比无标签的沉默用户群体提升效率高出30%以上。

基于行为数据标签的场景化营销,需要将重点凡在营销逻辑的建立、效果分析、方案迭代优化上,通过多次营销尝试找到性价比最高的行为标签建立方式,确定频次、时间段、结果等参数,并逐步建立起稳定的运营方案和运营计划,其中一些固定运营方案可以固化在一周的某一天,甚至某个具体时段。

运营、营销达成效果的关键在于不断尝试,优化场景化标签中各个数据维度和数值,同时在效果达到预期的方案中迭代,最终形成有效的运营及营销模式。

– End –