新零售:“无法阻挡”还是“无能为力”?

​提到新零售,你的第一印象是什么?

早上吃饭,煎饼果子可以手机支付了;

中午休息,外卖来得越来越快了;

加班的晚上,发现去年刚装的无人货架,今年因为销售量太低而拆掉了;

回家的路上,一窝蜂建起的无人便利店落满灰了;

躺沙发上刷刷手机,猜你喜欢,似乎已经比伴侣更合心意了;

不知什么时候开始,亲人租赁也成为一种产品了;

人造节日越来越多了,双11也开始走向线下了;

当年神仙打架散下来的补贴,算算也还得差不多了。

互联网公司、咨询公司、甚至传统软件公司都在谈新零售和数字化转型,模式之纷繁,链条之广袤,史无前例——似乎不谈谈流量变现,不说说几个O,不把人从业务环节中消灭,不烧烧钱看个热闹,都不好意思说自己是零售从业者了。

粉丝经济也好,O2O也好,无人也好,补贴也好,都只是零售行业中似新而不算新的手段,并不构成新商业模式——沃尔玛在二十世纪七十年代就推出了电话订货,门店送货。然而今天卷土重来的这场零售变革似乎并未转瞬即逝。眼前的“新零售”,它究竟“新”在何处?能带来什么样的企业价值?如何为企业赋能?未来潜力在哪里?今天我们一起通过真实案例,来看看这场热闹背后,到底是“无法阻挡”,还是“无能为力”。

这一轮新零售的契机在于数字化基础设施能力大幅提升

其“新”体现于人的比特化、货的产销化、场的无界化

在零售行业,企业和消费者求变的渴望存在已久。企业有营销预算,逐渐不知道花在哪里才有回报;消费者要求更高,不像上一辈那样认为消费能满足温饱就好。然而真正让这一轮零售变革无法阻挡的,是技术的发展,是数字化基础设施能力的大幅提升。

随着数据采集方式的丰富,数据的维度也愈发饱满起来。从前我们只能对发生交易的顾客进行分析,而现在已经能通过线上埋点、线下WIFI探针、物联网技术、移动支付、位置服务对交易前各个“场”在不同阶段的交互行为进行分析,形成POS前洞察。表面形式上的花样翻新治标不治本,真正的变革是建立在行为的数字化及数据资产的积累基础之上的。企业可以通过设置场景、增强与既有顾客和潜在顾客的互动来丰富数据资产。互动越多,就越有可能产生更深度的交流,留下更多“痕迹”,让企业为顾客提供更贴心的服务。

新零售的“新”,归根结底依然围绕三个核心元素——人、货、场,具体体现为人的比特化、货的产销化、场的无界化

1、人的比特化——行为更加清晰,人群范围扩大

比特化就是通过数字化,以最小的单元,对人的特征及行为进行记录和传载。

从前企业只能对自有会员的交易数据进行分析,如今在RFM+模型和CLV+模型中,我们加入交互行为和场的数据,让既有顾客行为更加清晰,将顾客人群的范围扩大。当我们说高价值顾客的时候,会多思考一层——以哪个渠道?是购买金额最高的顾客?是利润最高的顾客?还是传播力最强的平民KOL?同样是新客户期,到底是有活跃到访但没有发生购买的顾客,还是根本没有到访行为的顾客?此外,通过一三方数据相结合的数据挖掘,我们能够客观洞察顾客在品牌外的价值主张,投其所好,并且在第三方池触及潜在顾客群。

了解顾客后的下一步是什么?杀熟吗?当然不是。对顾客的运营要坚持利他原则,一切从顾客的角度出发。

在与某零售企业合作中,我们结合一三方数据,探索注册未购买顾客和活跃顾客的APP行为习惯偏好、品类偏好、客单价分布、购买时间分布,设计恰当的推广品类,利用品牌自身线下流量规模与第三方置换异业权益。在这场活动中,品牌摆脱了传统的积分换购和特殊折扣等影响毛利的减法行为,而采用降维打法巧妙避开价格战,顾客以远低于市面上的价格获得心仪的权益,创造商家与顾客共同获益的双赢生态模式,首次活动便创造20%的销售增量,经过迭代之后更是创造了200%的销售增量。

2、货的产销化——人货交互可见,销售即是生产

顾客付款之前的行为是可洞察的,最早从线上开始——通过线上埋点,品牌能够分析出哪些顾客加了购物车但是没有购买,浏览了A商品的顾客又看了哪些其它商品。随着物联网的不断发展,线下的人货交互行为洞察,也成为可能。人货交互的可见让货品的设计、生产及陈列不再由品牌自己决定,而是让顾客也能够参与其中,产销者的概念由此而生。

image.png

90后乃至00后新生代的一人经济、共享经济、KOL经济、情绪态度消费、去中心化消费,对产品设计、生产、互动触点、传播方式产生了摧枯拉朽般的颠覆。这一代消费者已经不再满足于坐等“货”被品牌生产出来——从江小白的用户生成内容到肯德基的点歌服务,无不体现了消费者对影响产品和服务的热情。

3场的无界化——交易交互无界,虚拟场域概念

场的无界化的第一层意义是,OMO 融合带来了触点争夺的白热化。有人说OMO是线上线下导流,事实上OMO不是企业在自己的主场导流,而是到顾客的战场去——毕竟坐在自家花园里靠品牌影响力等顾客上门的日子已经过去了。交易交互的场已经无界,今天是王者,明天可能是吃鸡,今天是游戏,明天可能是短视频;目前,许多消费者在本地生活圈服务平台的年消费,甚至比第三方电商加起来还多。哪里有流量,哪里都可以做生意。去年九月份的时候,四个星期之内,市场上出现了七款吃鸡游戏,从王者荣耀7000万的日活里面,生生撬出了4000万的活跃用户。如果有客观的数据支撑你看准这样一个流量去经营,就能实现一轮收割。

流量场不断快速更换的局面已经超出了单纯依赖经验的判断已经无法应对不断快速切换的流量场。这迫使企业要借助数据,用更客观敏捷的方式判断,跟上节奏,捕捉管理适合自己的触点。

image.png

场的无界化的另一层含义是,场域概念的虚拟化。如今的实体店,是门店,是展室,也是仓库。企业可以利用虚拟现实技术创造虚拟场,或以前置仓覆盖消费者所在的生活圈服务。两者都需要考虑坪效设计品类,例如生鲜类值得前置,但洗衣液也许就要多加考虑。

新零售对企业的价值——通过业务标签化、流程自动化、分析模型化、应用场景化实现效率和收益的平衡和共进。

传统企业往往紧盯投资回报率或直接收入,而在目前的商业条件下,零售企业可以通过数据实现的商业价值更广,包括效率和收益两个维度。

image.png

1、效率的提升

提到新零售对效率的提升,也许你的第一个反应是“无人”。无人技术的发展是人工智能的一大步,但为了无人而无人,和把顾客在线上线下间无意义驱赶的O2O一样,只是新零售的伪创新。新零售对效率的提升应该体现在企业的整个运行链路当中,通过业务标签化、流程自动化和分析模型化,减少跳入跳出时间和重复工作量,最终实现决策数字化。数据资产的建设、数字化平台的建设、数字化决策能力的建设,都是效率提升的基础。

在与某服装企业的合作中,我们在私有化DMP平台中进行数据资产积累,根据属性、行为、既有标签构建一、二、三方标签,并在基础标签之上,构建自定义标签、算法标签、聚合标签,实现业务标签化;之后将标签部署在平台上,并与营销投放平台全面打通,在一个生态中完成人群筛选调用、投放、数据回流、追踪的全链路,实现一站式营销流程自动化。在每次营销活动之后,该企业根据回流数据分析结果、顾客价值及生命周期变化,判断人群标签有效性,固化成自定义标签,后续即可一键调用,避免重复工作量。标签式人群筛选及放大,颠覆了以往数据库捞人的模式,节约营运时间75%以上,提高企业敏捷应对能力。

在零售选址方面,企业可以通过实时客流热力,直观了解城市主商区、次级商区、辐射商区覆盖域;在客流热力基础上叠加自有门店、竞品门店、增益品牌信息,寻找空缺覆盖片区;结合对目标选址行政区、目标营业时段的选择,采用5C选址方法做多因素综合评分;在优选片区中选定精确店址并继续深化选址研究,利用步行等时圈更科学划定局部商圈,快速获得多址终选的决策依据。

image.png

值得强调的是,如今的数据分析对象早已不仅仅局限于数字,还包括图像、语音、文本、社交关系等。我们紧抓这一浪潮,与某舆情公司合作,尝试分析多个历史网红产品的双微传播路径,聚焦核心传播节点和脉络,设定自由度和凝固度阈值,在发酵期以矢量定位网红食品新词,并追踪其后续声量,帮助企业发现网红食品,及时量产。该分析创造了新的业务细分产品,将过去的人为搜索和预测自动化,大大提高网红食品识别的时间和财务效率,及时捕捉市场热情。

2、收益的提升

分析对收益的提升往往建立在效率提升的基础之上,通过应用场景化实现,体现于会员结构优化、销售增长和成本下降。

某零售企业利用其会员线下POI数据、APP数据和WIFI数据,打造定制化标签,在未购买咖啡的会员当中筛选出潜在咖啡客进行分群、分时、分文案投放,总体响应率比盲投提高约120%。同时,通过分析识别长距离通勤人群等响应率为历史响应率3.5倍的超高质量咖啡潜客群,日后可以作为种子进一步通过在第三方人群池进行放大、LBS或微生态拉新,实现低成本咖啡新客规模化获取。响应率提升带来的销售增长和营销成本的节约可以反哺,为顾客带来更好的产品。

image.png

传播行为数据的可获取性,让零售企业可以通过最小可行化产品(MVP)测试,对权益、渠道、媒介、人群参数等进行效果回收迭代,减少时间及财务浪费。迭代不仅仅是为了找到对的方向,还包括找到该绕开的错误。国内当前注册在案的网红120万个,去年下半年,企业就已经可以以小时为单位来数字化展现网红的效果;人工智能已经能够自动化生成千人千面的素材——人跟品牌之间的交互节奏极快,规模极大,成本极低,因此与其让运营方、设计师绞尽脑汁猜几百万用户怎么想,不如让几百万人来投票。新办法层出不穷,今天最有效的方式是“裂变红包”,明天可能就是“邀请得券”,所谓方法论不是一两个金点子,而是一套敏捷的发现、验证、推广新技巧的机制,在找准现金牛的同时,也做好弯道超车的准备。

在线下营销活动期间,某品牌业利用DID双重差分模型分析活动中的显著指标,设定核心KPI,为导购行为提供科学指导;利用随机森林聚类和分类模型判断影响人群是否购买及购买金额的因子变量,指导后续人群筛选。此举颠覆了以往对管理经验和传统认知的过度依赖,大幅提高决策客观性,缩短人群及店铺筛选时间,降低人员培训成本。

3、新零售的赋能——自动化洞察降低数据科学门槛

目前,大量零售企业依然缺乏针对数据科学技术的整合方式,错失了人群、商品、价格、竞争环境、周边环境、交通状况、店面属性等元素中蕴藏的大量尚未被完全解读的商业机会。

image.png

数据科学平台为零售企业赋予基础数据科学能力,让其能够首先在数据目录中将散乱的数据整理出结构和组合,之后在数据工厂中按照场景或项目目标,对数据进行处理、建模,输出数据集至数据目录或建模结果,在数据报表中实现可视化,最后在数据仓库沉淀。

4、新零售的未来潜能

新零售是“无法阻挡”的。其在“人”和“场”方面的能力已经形成,并将随着数据采集硬件的发展、数据捕捉与应用场景的丰富而逐渐增强。随着这一代消费者生活方式的改变,在“货”方面将涌现出更多类型的实物、虚拟物和服务作为产品出售;生产速度和个性化程度,都将超越当前的初级柔性供应链,在生产端3D打印技术的升级中实现突破。

此外,在人员赋能方面,目前数据科学的自动化仍然处于组件单一自动化的早期阶段。特征工程之前的步骤,依然主要由人工完成,尚未形成“策略库”。特征工程、模型选型、评估的单一组件自动化可以实现。后期迭代优化部分,能自动化实现模型的选择和调参,但建模部分依然需要大量人工干预。打破这一壁垒之后,自动化数据科学将真正实现大数据的赋能——降低工具门槛、人才门槛和预算门槛。更多小品牌也能受益于大数据和人工智能手段,大型企业和中小企业间的基建差距将缩小,中小企业将有更多机会跑出,竞争也将更为激烈。

新零售中的大数据和人工智能,作为底层建筑或者基础设施在升级改造产业,也有其“无能为力”之处。在定位其价值时,管理者应该接受其带来的洞察有其概率性和量化的不确定性,是决策的辅助者而非替代者。

看似普适的理论往往价值有限,只有那些敢于下水,拿到分析洞察之后拥抱实验文化的挖掘者,才会切实尝到数据带来的甜头。新零售也不是互联网企业的专属,所有的传统行业,都值得用互联网思维再思考一次,否则就会像大润发董事黄明端所言——“我赢了所有竞争对手,却输给了时代”。

TalkingData集合数据、产品和咨询的全域服务,拥有多年零售龙头企业合作实施落地经验,愿以企业价值为终极目标,携手企业以效率数字化为起点,提升横纵向生态聚合、业务经营能力、平台支撑能力与商业运营模式,以效益数字化为节点,全面提升数字化能力,稳固提高产出价值。

精挑细选丨10 本商业决策者必读的人工智能书籍(值得收藏)

人工智能不是简单明了的小学数学,但也不是晦涩难懂的火箭科学。作为商业决策者,对人工智能的理解不仅可以让你更好地优化现有的产品、服务和流程,还可以为公司的未来发展产生新的想法。

Screen_Shot_2018-04-14_at_4.20_.59_PM_.png上图这10本书能够帮助商业决策者进一步地从方法论、当前最新发展、行业案例、执行指南、安全因素以及未来探索等各个方面去更好地了解人工智能应用,进而奠定知识的基础。

1. 《执行指南:如何在你的企业里发现和实施人工智能应用》

英文名: 《The Executive Guide to Artificial Intelligence: How to identify and implement applications for AI in your organization》
作者: Andrew Burgess
出版时间: 2017

s-l500.jpg

作为一名经验丰富的管理顾问,Andrew 根据他的专业见解解释了为什么现在是应用 AI 的最好时机,以及公司该如何将自动化的思维转变为行动的方法。

该书书谈到了该如何解决在从原型到实际应用的整个生命周期中遇到的问题,比如该怎样预防故障的发生。在本书的最后,作者还列举了几个人工智能的使用案例以及关于人工智能未来的探讨。

2. 《有情机器:未来时代的人工智能》

英文名: 《The Sentient Machine: The Coming Age of Artificial Intelligence》
作者: Amir Husain
出版时间: 2017

35011553.jpg

该书有三个部分:关于人工智能的基本介绍、当今世界的人工智能以及其未来。作者 Amir 是一位成功的拥有连续创业经验和创新者,他对各行各业的理解使他能够在书中对从人工智能在物联网到金融市场等不同领域进行深度的探讨。在本书最后,Amir 还讨论了一些由人工智能引起的社会问题,例如自动化和人类工作机会均衡等等。

3. 《人工智能:你今天必须知道的关于我们未来的101件事》

英文名: 《Artificial Intelligence: 101 Things You Must Know Today About Our Future》
作者: Lasse Rouhiainen
出版时间: 2018

51zbxN2lBpL.jpg

本书简要介绍了人工智能及其重要性,然后列举了人工智能在金融、医疗保健、教育和政府等各个领域的应用。作为国际上新兴技术领域的意见领袖,本书作者 Lasse 还阐明了如何在从市场调研、客服、会计和人力资源等业务流程中应用人工智能。除了理论上的观点之外,本书还提供了应用人工智能的几个例子,例如聊天机器人、自动驾驶汽车和机器人以及企业如何使用它们来创造价值。

4. 《人工智能:一种现代的方法》

英文名: Artificial Intelligence: A Modern Approach
作者: Stuart Russell, Peter Norvig
出版时间: 2015

0132071487.jpg

Stuart 和 Peter 被誉为是当代最着名的计算机科学家,他们在本书中提出了一个非常有深度的看待人工智能问题和解决问题的方法论。本书首先解释了什么是智能代理(Intelligent Agent)这个概念,然后介绍了在计算机科学领域解决问题、辩知和推理的方法。之后本书还对人工智能系统如何自主进行计划、学习、交流、感知和行动进行了深度讨论,从而使读者对在应用人工智能的问题上有了更系统的理解。

5. 《未来产业》

英文名: 《The Industries of the Future》
作者: Alec Ross
出版时间: 2017

41uPd3ojbRL._SX327_BO1,204,203,200__.jpg

这本书是前美国国务卿高级顾问 Alec Ross 的前瞻性代表作之一,本书的开始讨论了当前机器人和类人机器(基因密码)的发展,然后接着讨论了包括货币、市场和信任机制在内的所有事物的代码化。作者强调了信息时代的代码和数据的重要性,这些见解对于商业领导者该如何正确地利用公司内外的工具和资源至关重要。

6. 《针对商业的人工智能和机器学习:用数据驱动价值的指南》

英文名: 《Artificial Intelligence and Machine Learning for Business: A No-Nonsense Guide to Data-Driven Technologies》
作者: Steven Finlay
出版时间: 2017

35270840.jpg

本书首先以预测模型为代表,介绍了人工智能和机器学习及其典型使用方法,然后解释了为什么机器学习很有价值以及如何用它来做出商业决策。作为一名具有20多年机器学习解决方案和实战经验的数据科学家,Steven 还在书中介绍了决策树、神经网络和深度学习及其他人工智能相关知识。

7. 《预测机器:人工智能的简单经济学》

英文名: 《Prediction Machines: The Simple Economics of Artificial Intelligence》
作者: Ajay Agrawal,‎ Joshua Gans,‎ Avi Goldfarb
出版时间: 2018

717PN6JWRuL.jpg

《预测机器:人工智能的简单经济学》是由三位战略管理和市场营销教授 Ajay,Joshua 和 Avi 联合撰写的一本具有深度预见性的书。该书重申了智能机器预测的力量和数据的重要性,接着还讨论了如何通过使用人工智能来优化商业决策、工作流程和管理运营。此外,本书最后还浅谈了在人工智能转型过程中一些值得关注的的社会风险和所带来的潜在影响等问题。

8. 《每个人都需要知道的人工智能那些事》

英文名: 《Artificial Intelligence: What Everyone Needs to Know》
作者: Jerry Kaplan
出版时间: 2016

51CmiM9moHL._SX332_BO1,204,203,200__.jpg

Jerry 是一位连续创业者和人工智能专家,他在这本书中将商业和科技无缝地结合在一起。本书首先介绍了人工智能的历史、最新进展以及人工智能的哲学,接着讨论了一些人工智能与法律之间有争议的话题。除了人工智能对商业的影响之外,Jerry 还谈到了其对未来人力劳动、社会公平可能产生的影响。

9. 《领导力的未来:自动化,机器人和人工智能的兴起》

英文名: 《The Future of Leadership: Rise of Automation, Robotics and Artificial Intelligence》
作者: Brigette Tasha Hyacinth
出版时间: 2017

511H4xIinML.jpg

这本人工智能书有三个部分:1. 自动化、机器人和人工智能的兴起; 2. 当今社会的领导力; 3. 未来的领导力。作为领导力和管理咨询领域的专家,Brigette 首先讨论了自动化对企业效率的提高及其对就业市场的影响,随着人工智能越来越聪明,本书也讨论了它是否会取代部分领导者的问题。最后,Brigette 指出,虽然人工智能可以取代某些类型的工作,但人工智能缺乏情商的缺陷会限制它只能取代部分人类的工作。

10.《“反扩张”:人工智能和新一代人如何创造未来经济》

英文名: Unscaled: How AI and a New Generation of Upstarts Are Creating the Economy of the Future
作者: Hemant Taneja
出版时间: 2018

513lQTcvXzL._SX321_BO1,204,203,200__.jpg

这本书的标题是“反扩张”,这一新术语的含义是未来科技会使中小企业具有强大的影响力和潜力,它违背了传统观念下人们对做生意的一致看法——越大越好。作为一名经验丰富的风险投资家,Hemant 解释了在能源、健康医疗、教育、金融、新媒体和新零售等各个行业中企业“不扩张”却效益大增的现象。除了对不同行业案列的介绍之外,本书还讨论了如政策、公司战略和个人选择等各种因素对实施人工智能转型带来的影响。

正如吴恩达所说的“AI是新电力”,那么如何有效和安全地使用这种“新电力”仍然是早期实施人工智能的一个问题。这些书可以帮助商业决策者理解人工智能,并以适当的方式使用它。本文虽然只是简单的介绍了这几本书,但希望读者可以从中获益并在之后去详细的汲取这些书中的精华。

锐眼洞察丨在数字时代,有形数据仍然重要吗?(翻译)

原文:https://www.smartdatacollective.com/digital-age-tangible-visible-data-matters/

译者:TalkingData 曾晓春

本译文禁止商用,转载请注明来源!

创业公司和大型企业可能都希望将每项新技术全部应用在数字化转型当中,但以可靠的方式去结合数字化和有形数据才是唯一的出路。

对于那些在数字时代之前就已经成立的公司来说,最大的挑战之一可能是数字改革以及成功进行完整的数字化转型。而今,与客户的联系比以往更加紧密,而数字设备可以充当虚拟助手去帮助这一点。

此外,有一些思想活络的创业型公司,正在努力地争取关注度。为了保持竞争力,公司必须去适应数字世界。当谈到数字化转型时,现在正是最好的时机,不过在这条路上充满了挑战和障碍。

数字化转型需要什么

在供应链、工作流程的大为变化以及公司与客户的交互沟通上来说,现在的组织,如果想跟上不断变化的消费者需求,进行数字化转型是势在必行的,如果公司不做好准备并去接受技术变革,其产品或服务可能会被时代所抛弃。

随着人工智能、机器学习、云计算等层出不穷的理念和技术,企业必须以更快的速度去接受,从而满足当前客户的期望,如今的消费者期望与品牌之间的互动能产生立竿见影的效果,因为他们已经习惯于那些触手可及的信息,而这正是如今公司通过数字化改造所能达到的目标。

有形信息仍然重要

尽管对数字交互的需求不断加大,但在许多情况下,有形可见的数据仍然是最重要的,同样,技术采纳方面的差距也起到了一定的作用。例如,QR码(二维码)已经成为了司空见惯的事情,不过一些消费者不太可能去拿出智能手机扫描QR码来获取信息,而更喜欢用传统的方式阅读可见的标识或访问相关网站。

在其他情况下,监管问题阻碍了组织向数字化的过度,例如,扫描QR码甚至访问网站以获取必要且紧急的信息是不切实际的,法规规定这些信息在紧急出口和紧急除颤器(心脏除颤器又称电复律机)旁要显示清晰,并显示在显著位置(形式为金属铭牌或其他标牌)在重型设备或机器上。

引领数字转型成功

如果你准备好迎接数字世界,并且想带领公司走向未来,那么需要牢记三个重要的考虑因素:

1、有正确的目标

许多企业所面临的严重问题是没有明确的数字化转型目标,如果没有明确的目标和完善的计划,许多技术实施可能会不足或者更糟,最终以彻底失败而结束。这并不总是因为技术不起作用,而往往是因为公司试图去实施最新技术(即“新闪亮物体”综合征)即使它与客户的需求无关。根据Tech Pro Research的研究,只有20%的受访者表示他们已经制定了全面的数字化转型战略。

有一点是肯定的:在数字化转型的过程中会遇到各种挑战,因此,不仅需要有A计划,如果A计划不能平移,还需要B计划。获得所有关键利益相关者的支持也是必要的——每个部门负责人、每个董事会成员等等。所有利益相关者都应该清楚地了解这些技术如何影响和惠及他们各自的利益以及公司的利益。

从一开始就要有明确的目标,而不是去部署各种技术,寄希望于其中的某一个会起到作用。

2、全面看待

数字化转型项目失败的另一个原因是转型团队往往不能全面地看待整个业务,数字化转型影响着公司从上到下的每一个部门,数字化并不意味着单单将少数存储服务器切换到云端或更新的前端技术上。

数字化转型不仅是一个部分的事情。数字化转型项目想要成功,必须整合移动端、云、社交、人工智能、分析、物联网等方面。不仅如此,还必须让所有员工参与进来,提供必要的培训并做好准备迎接变化。你不能局部的做这件事,因为技术演进的日益加速——这也正是你开始考虑数字化转型的原因之一。

还需要把注意力从运营角度转移到分析新技术如何提供商业价值的角度,每个员工都像利益相关者一样,受到这种变化的影响加入并投资于转型中。

3、设定现实的期望

不要高估利用数据所提供的效果,因为仅仅现在拥有更好的数据及分析,并不能一夜之间改变整个公司。相反,要以数据为重点,去逐步进行变化并及时采取相关策略。变化过快会让员工和客户都感到困惑。

数字化转型不适合胆怯者,但是企业必须拥抱数字化转型才能在现代市场中保持竞争力。将可见的有形数据去作为数字化转型的补充,不仅可以保持合规性,还能帮助企业更顺利的进入数字化未来。

从问题了解Jetty类加载机制

1、问题导出

由于机器的原因,将服务从一台机器迁移到另外的机器上,在迁移后,接受邮件请求,并将其发送出去的邮件基础服务 messages 不可使用了。现象就是服务仍旧可以接受请求,但不能异步的将邮件正常的发送出去,并报有以下错误。

image.png

针对以上错误,经过分析并查找原因,最终确定为是由于迁移后的jetty容器使用的是容器自带的 javax.mail.glassfish-1.4.1.v201005082020.jar,Jetty 容器优先加载容器中 lib 下的 javax.mail.internet. MimeMessage,而该类下,没有相应的方法,并且 WEB-INF/lib 下的 jar 包中类不能覆盖容器下 jar 包的类。

2、问题分析

image.png

那么有相应的方法,为什么还会报这样的错误:java.lang.NoSuchMethodError: javax.mail.internet.MimeMessage.setFrom(Ljava/lang/String;)V?最终怀疑是容器的问题,于是查看了所使用的 jetty 容器。

当前版本使用的 jetty 容器,比原来版本容器的 lib 下多个 jar 包:javax.mail.glassfish-1.4.1.v201005082020.jar,将该 jar 包下载下来,发现该包里面包含有相同的类,如下图所示:

image.png

MimeMessage 类,也确实有 setFrom 方法,但是没有参数是 String 的 setFrom 方法。

image.png

这说明 jetty 容器优先使用了容器中 lib 下的 jar,而非 WEB-INF/lib下的 jar,那么为什么优先使用 jetty 容器中 lib 下的 jar 包,而非 WEB-INF/lib 下的 jar 呢?

3、Jetty中lib下jar先于WEB-INF/lib下的jar加载

Jetty,Tomcat 等 web 容器通常都会对 ClassLoader 做扩展,因为一个正常的容器至少要保证其内部运行的多个 webapp 之间:私有的类库不受影响,并且公有的类库可以共享。这正好发挥 ClassLoader 的层级划分优势。Jetty 中有一个 org.eclipse.jetty.webapp.WebAppClassLoader,负责加载一个 webapp context 中的应用类,WebAppClassLoader 以系统类加载器作为 parent,用于加载系统类。不过servlet 规范使得 web 容器的 ClassLoader 比正常的 ClassLoader 委托模型稍稍复杂。下面我们先看一下关于 servlet 容器的 JSR 规范。

JSR 规范

Jetty 是 servlet 容器,这里查了一下 JSR315 servlet 3 中对 web application class loader 的要求:

Web Application Class Loader:

The class loader that a container uses to load a servlet in a WAR must allow the developer to load any resources contained in library JARs within the WAR following normal Java SE semantics using getResource. As described in the Java EE license agreement, servlet containers that are not part of a Java EE product should not allow the application to override Java SE platform classes, such as those in the java.* and javax.* namespaces.

不允许应用去覆盖 JAVA SE 的系统类

That Java SE does not allow to be modified. The container should not allow applications to override or access the container’s implementation classes.

不允许应用覆盖或存取容器的实现类

It is recommended also that the application class loader be implemented so that classes and resources packaged within the WAR are loaded in preference to classes and resources residing in container-wide library JARs. An implementation MUST also guarantee that for every web application deployed in a container, a call to Thread.currentThread.getContextClassLoader() MUST return a ClassLoader instance that implements the contract specified in this section.

每个应用调用 getContextClassLoader()返回的都应该是实现了本规范中定义的 class loader。

Furthermore, the ClassLoader instance MUST be a separate instance for each deployed web application.

每个应用的 class loader 必须要是独立的实例。

The container is required to set the thread context ClassLoader as described above before making any callbacks (including listener callbacks) into the web application, and set it back to the original ClassLoader, once the callback returns.

源码阅读

通过对 JSR 规范的理解,下面我们来阅读一下 Jetty 容器的代码实现,了解一下关于 JSR 规范的部分实现:

1、  系统类

Jetty 中以类的 package 路径名来区分,当类的 package 路径名位包含于以下路径时,会被认为是系统类。WebAppContext 中配置如下:

image.png

因此,我们可以通过 org.eclipse.jetty.webapp.WebAppContext.setSystemClasses(String Array) 或者 org.eclipse.jetty.webapp.WebAppContext.addSystemClass(String) 来设置系统类。 系统类是对多应用都可见。

2、  Server类

Server 类不对任何应用可见,Jetty 同样是用 package 路径名来区分哪些是 Server 类。WebAppContext 中配置如下:

image.png

我们可以通过, org.eclipse.jetty.webapp.WebAppContext.setServerClasses(String Array) 或 org.eclipse.jetty.webapp.WebAppContext.addServerClass(String) 方法设置 Server 类。 注意,Server 类是对所有应用都不可见的,但是 WEB-INF/lib 下的类可以替换 Server 类。

3、自定义 WebApp ClassLoader

当默认的 WebAppClassLoader 不能满足需求时,可以自定义 WebApp ClassLoader,不过 Jetty 建议自定义的 ClassLoader 要扩展于默认的 WebAppClassLoader 实现。这里我们来看一下 WebAppClassLoader:

WebAppClassLoader的构造器:

image.png

WebAppClassLoader 还是按照正常的范式设置 parent ClassLoader,如果当前线程上下文中设定了 ClassLoader 就以当前线程上下文类加载器为父 ClassLoader,否则使用 WebAppClassLoader 的加载器,如果还没有,就采用系统类加载器。详细的加载过程请看 WebAppClassLoader的loadClass() 方法:

image.png

通过阅读源码,我们了解到,当在容器中启动一个服务的时候,容器的 jar 包和 class 文件加载顺序是:

  1. 优先加载 JDK 和 JRE 所需的 jar 包和 class 文件
  2. 加载容器所需的 jar 包和 class 文件
  3. 加载项目路径 /WEB-INF/class 下的文件
  4. 加载项目路径 /WEB-INF/lib 下的 jar 文件

注意:同一个文件夹下,jar包是按顺序从上到下依次加载

这里列举了启动一个 tomcat 服务的时候,jar 包和 class 文件的加载顺序:

  1. $java_home/lib 目录下的 java 核心 api
  2. $java_home/lib/ext 目录下的 java 扩展 jar 包
  3. java -classpath/-Djava.class.path 所指的目录下的类与 jar 包
  4. $CATALINA_HOME/common 目录下按照文件夹的顺序从上往下依次加载
  5. $CATALINA_HOME/server 目录下按照文件夹的顺序从上往下依次加载
  6. $CATALINA_BASE/shared 目录下按照文件夹的顺序从上往下依次加载
  7. 我们的项目路径 /WEB-INF/classes 下的 class 文件
  8. 我们的项目路径 /WEB-INF/lib下的 jar 文件

4总结

通过以上分析,对于该问题的最终的解释就是:jetty 容器中 lib 下的 jar 包先于 WEB-INF中lib 下 jar 包加载,而且 WEB-INF/lib下的 jar包中类不能覆盖容器下 jar 包的类。

献给对“弊”圈一无所知的你

口气略大,萌喵镇楼~~

对广告监测无所不知的精英男女们,一起看个热闹、巩固下知识点。

初入移动广告行业的广告主们,get本文你将获得行业生存的新型能力。

移动广告作弊圈(简称弊圈)的4种作弊技术:模拟器劫持刷机墙真人群刷,因受到大量作弊者粉丝喜爱,被称为弊圈“四大天王”。虽然就败坏的道德而言,彼此平等。但就作弊技术而言,千差万别、各有千秋。也因此,弊圈的“四大天王”,存在着一条“我看你的作弊技术很Low”相互diss的鄙视链。

在以往与弊圈相关的文里,我们对推广中的作弊技术做过简单介绍。但从未提及“弊”圈不和,相互瞧不起这些事儿。现在,带一众混迹移动广告行业的广告主,深入弊圈,观摩“四大天王”大型互鄙现场。

现场直播

 

模拟器 弊圈昵称:模王

本模王座下拥有众多品种模拟器,其易容技能十分了得。可零成本随意变换机型、系统版本。在搭配我最近新收的可修改机器IP的小弟(软件),使我的粉丝团——模丝们用起来广告作弊效果更佳!凭借着无水分作弊技术涵养,本模王完全有资格在弊圈内说“我不针对谁,我是说在座的各位都是辣鸡”这句话。

特殊技能:百变造型,搭配随心。IP地址,说换就换。
良心指数:❤

刷机墙 弊圈昵称:保密

楼上真是好大的口气, 量大钱少才是作弊之道。模拟器连对待广告主该有的真诚都没有,我可是诚意十足、态度端正,全部真机刷量。什么微信阅读、CPC、CPA……各种指标信手拈来。只要我愿意,不管多少流量都不在话下。 如果心情好,说不定我还会给广告主多刷几天留存。刷机墙,才是广告作弊骗取钱财的必备工具,哈哈哈哈!

特殊技能:量大钱少,真机服务。
良心指数:❤❤

劫持 弊圈昵称:主持(主动劫持)

选择一条对的路,比成倍付出努力要重要的多。本主持深谙此道,只要怀揣觊觎之心,就可赚的盆丰钵满。每当有从手机浏览器或pc端下载软件到手机,主动出击提示用户有安装风险,让用户从手机厂商的应用市场去下载。不费一兵一卒,直接获益之法你们和我多学学。

特殊技能:伺机而动,不放过劫持流量任何机会。
良心指数:无

真人群刷 弊圈昵称:老实人

只有广告主想不到的,没有我们做不到的。您是刷点击、激活还是注册、留存,组合指标我们也是可以的。一旦接到您的流量订单,我们就通过兼职网站、qq群等召集一票大学生、社会闲散人员。用勤劳的双手,真实的手机完成您的流量需求。

真人群刷,不仅稳定了社会治安,说不定在做单的时候发现广告主产品实用,就转化成真用户了呢。

特殊技能:量大钱少,真机服务。
良心指数:❤❤

直播结束

 

相信移动广告行业的少男少女们,通过对弊圈diss现场直播的观看,对作弊技术有了进一步的认知。刷机墙,略微有些技术含量;劫持,不参假的流氓行为;刷机墙,购买后用来刷量的真实机器;真人群刷,真人、真机、假量。

如果广告主们在推广时,遇上了“四大天王”并又很不幸的遭受到来自“四大天王”的组合拳。那么,广告主们很难不会面临推广费打水漂、营销指标增长全部为假量的人间惨剧。

如何让推广费在“四大天王”的夹击中幸免于难,就成为了本篇最重要的中心话题。TalkingData Ad Tracking的五大防作弊体系和分包统计功能,可识别各种作弊技术,轻松应对“四大天王”每一次作弊,帮助广告主量化推广效果和优化投放策略。移动广告行业的少男少女们,我们现在就一起了解下TalkingData Ad Tracking的这两部分功能吧~

五大防作弊体系

1. 防刷量SDK

TalkingData Ad Tracking通过SDK集成的作弊防护模块,进行数据通道加密确保传输安全;收到激活请求时,服务器端将拦截伪造激活数据,提升整体数据传输安全系数。并且加入行为识别技术,通过终端位置变化、传感器数据建立的模型,识别出哪些是问题设备;

2. TDID身份验证

拥有唯一身份的TDID作为验证,至少3次的数据清洗、排重、过滤、确保数据精准。实时反馈异常数据,通过Cookie排重、IP段排重、点击有效期限制、异常数据;

3. 转化时差

“转化时差”也是激活作弊的一种典型,移动广告行为点击、下载、激活等步骤,每个步骤都有对应的时间,设置异常时差范围,在分析点击和激活的时差后,校验时差设定范围,将激活转化过快的设备归为异常;

4.IP段防护

通过点击激活IP进行分析,从大量的作弊日志中发现某个时间段内,点击或激活的IP过于集中,将提供基于异常IP段防护策略设定峰值,超过峰值范围将被归为异常数据进行处理;

5. 持续ROI

ROI考量是衡量渠道质量的有效手段,持续考量用户后续转化,促进用户付费转化才是推广的最终目的。用户激活后,TalkingData Ad Tracking将为永久追踪其后续留存、付费转化情况,以监测广告真实效果。

分包统计

1.双维度数据统计

在所有安卓激活及效果点击的数据,系统将基于分包ID和媒体点击进行双维度归因。通过Ad Tracking的报表,应用开发者可了解每个渠道包的用户转化,以及使用Ad Tracking监测链接分包推广的点击监测,了解用户点击带来的转化数据;

2.分包数据统一管理

应用开发者无需再在Ad Tracking系统中生成渠道ID,系统将自动记录所有的渠道包ID。

证券行业移动App行为数据研究的商业价值

证券行业的客户金融交易渠道正在转向移动互联网,客户证券投资和财富管理服务将主要发生在移动App,其将成为客户的主要入口和金融产品主要发布场所。

证券企业如果想赢得未来市场、赢得客户,取得在金融市场的领先优势,就必须了解客户对金融产品的需求,重视客户的交易行为和互动行为数据。

利用数据提升客户体验,提升移动互联网端的数据和业务运营能力,具有同互联网企业一样的技术能力和迭代速度。重视用户的移动端行为数据将成为证券行业未来在市场成败的一个关键。

证券行业过去主要分析交易数据、资产数据、产品数据、人口属性数据。典型数据应用有数据库营销中的关联分析和交叉销售。交易数据对营销具有较大的商业价值,特别是老客户经营。例如某些产品的客户复购率较高,利用交易数据可以进行多次营销,降低营销成本。

行为数据相对于交易数据具有不确定性大的特点,行为数据更关注客户的兴趣偏好,更适合用于了解客户体验和用户潜在金融需求。利用App行为数据进行营销,具有范围广、预测性强等优点,缺点主要在于其营销的业务转化率不太稳定。考虑到潜在的目标人群基数较大,即使是较低的转化率,其转化的目标客户也会很多。

曾经在一个案例中,利用资讯推送来影响客户进行投资,转化率接近40%,大大超出了预期。一般行为数据营销的转化率低于10%,集中在1%-5%之间。如果低于1%的转化率,这个基于行为数据建立的营销方案将会被放弃。

行为数据的场景应用是建立在场景化标签之上的,基于App内部行为的场景应用来源于具体业务目标,例如证券App中的绑卡入金、购买理财、股票交易、基金买卖,贵金属购买、关注收藏等。

No.1 行为数据分析有助于加速产品迭代和提升客户体验

App行为数据包含浏览、点击、评论、交易等几类,可以通过App的按钮和事件埋点进行提取。经过异常值处理和数据去噪音之后,就可以进行分析和应用。移动互联网企业BAT等巨头,其产品和用户体验的竞争力就是来源于行为数据的分析和应用。

过去证券行业人员可以通过线下的营业网点来接触客户,利用同客户面对面的交流,了解客户的金融产品需求和用户体验。现在客户几乎不再去营业场所,或者去证券营业部的客户年龄都较大。光大银行曾做过统计,经常到营业网点办理业务的客户,平均年龄为52岁,说明年轻客户基本上很少去网点办理业务。

而年轻客户正是证券行业主要的客群,未来将会成为证券企业的主要收入来源。证券企业如果想了解客户的金融需求和用户体验,其主要的方式就变成了分析App的行为数据,这也说明了研究分析App行为数据的重要性。

在互联网企业中,App运营团队有一个重要的职责就是每天分析App的行为数据,主要是因为行为数据代表了客户对产品的喜好。基于对App行为数据的分析,互联网企业的产品经理可以及时调整产品,进行产品迭代,快速满足客户对移动产品的需求。互联网企业产品迭代完全基于App行为数据的分析结果。

客户在App的点击行为和浏览数据,辅以时间维度分析和漏斗分析,可以真实反应客户体验情况。互联网企业的运营部门参考这个数据可以分析客户喜欢哪些产品、广告、活动等,反之亦然。利用行为数据分析,运营部门可以实时了解客户体验情况,及时调整运营活动和产品布局,围绕客户需求来提升客户体验。移动互联网时代,客户体验比产品本身更加重要。

证券行业一直想学习和掌握互联网企业的竞争优势,特别是在产品迭代和用户体验提升两个方面。行为数据分析为证券行业产品迭代和体验提升提供了技术支持。证券企业完全可以深度分析App行为数据,利用行为数据分析结果来进行产品迭代和用户体验提升。

例如,证券行业可以通过分析App的点击热力图,来了解客户喜欢哪些功能,客户很少点击的功能就可以及时下架。参考AB 测试的数据来分析客户更加喜欢哪些功能,基于客户点击喜好进行App的功能迭代和用户体验提升。证券行业还可以依据客户DAU、留存时间、打开次数等行为数据,了解客户对App的体验反馈,留存时间增加和打开次数增多反映了用户对App的喜爱程度的增加。实时反馈的行为数据可以及时让证券行业了解体验情况并及时进行产品迭代。

证券移动App的行为数据具有直观、实时、客观等特点。基于行为数据的分析对于了解客户体验和产品偏好具有重要意义,是证券行业产品迭代和用户体验提升的基础数据,证券行业必须重视对其的研究和应用。

No.2行为数据研究有助于提升券商互联网运营能力

互联网行业有一句经典的话,三分产品七分运营,好的产品不是设计出来的而是运营出来的。互联网运营的基础就是行为数据的分析,运营团队借助行为数据的分析实现运营能力的提升。

证券企业希望学习互联网企业的数据运营能力,其主要体现在对数据的分析和应用能力,包括基于数据的产品运营、渠道运营、用户运营、活动运营等。这些运营能力是建立在数据分析和应用基础之上的,其中行为数据应用能力是其重要组成部分。

产品运营的核心工作就是产品优化,包括UI/UE与产品框架,以及内容建设、产品维护、用户维护、活动策划等。用户需求不断变化,需要对产品进行持续的迭代完善才能满足用户需求,没有运营则无法时刻洞察用户需求变化;运营是让产品持续产生产品价值和商业价值。行为数据是产品进行优化的基础,基于行为数据中的点击数据和浏览数据,运营团队可以了解客户对UI和产品的喜好、对内容的关注、对活动的反馈,依据行为数据分析进行产品迭代和优化,行为数据是产品运营的重要参考。

渠道运营是指利用资源和流量为产品带来新增用户,包括免费、付费、换量、人脉积攒、产品的吸引力、圈内人的推荐、策划活动、内容营销、用户口碑等手段。互联网线上渠道发展比较野蛮,鱼龙混杂。特别是移动App推广市场,不但流量贵,而且充斥虚假流量。参考《TalkingData发布的2017年移动互联网行业发展报告》,在某些高峰时段,一些渠道的虚假流量超过了50%,也就是说至少有一半的点击和下载是无效的,广告推广费用是浪费的。曾经在某一个特殊时间段,TalkingData移动广告监测平台Ad Tracking在一天时间内统计到24亿次点击,其中90%的点击是恶意刷量。

券商利用App的行为数据可以有效分析出哪些渠道效果好、真实流量比例高,哪些渠道效果差、虚假流量明显。通过对行为数据的分析,还可以判断出哪些是真正的客户,哪些是一次性客户,哪些是羊毛党客户,哪些是有效客户。通过App渠道分析数据,券商可以降低广告投放费用,提升线上获客质量,提升广告获客的ROI。行为数据是渠道运营的重要参考指标,通过App渠道数据的分析,可以提升券商在移动互联网渠道的运营能力。

用户运营指以用户为中心,遵循用户的生命周期价值点和用户产品需求设置运营活动与规则,制定运营战略与运营目标,严格控制实施过程与结果,以达到预期所设置的运营目标与任务。用户运营最直接的价值,就是提升用户金融产品的复购率、提升单客价值、激活休眠客户、挽留流失客户、发现潜在客户等。证券行业面临较大的挑战,包括休眠客户比例过高、客户单客价值不高、流失客户明显等等问题,都可以通过行为数据分析找到解决办法。

例如,通过客户点击和关注的数据,了解客户资讯需求,主动推送相关资讯,激活休眠客户。利用点击和浏览行为数据趋势分析,及时了解客户流失倾向,结合客户产品喜好和兴趣爱好,定制激励方案,挽回流失客户。行为数据可以直观反映出客户兴趣和喜好,为用户运营提供方案支持,具有非常大的参考价值。

券商如果希望在产品运营、渠道运营、用户运营等方面具有与互联网企业同样的技术和运营能力,就需要重视行为数据的分析和应用。

No.3行为数据应用是券商业务智能化发展的基础

证券行业智能化发展是必然趋势,一方面是智能化应用的技术条件已具备,例如数据处理能力、模型算法能力、专业人才储备;一方面是券商所面临的经营成本高、效率低、客户服务覆盖率低等问题,都可以通过智能化应用来解决。

证券行业智能化应用的广义涵义,是借助工具平台和智能应用来解决具体的业务问题。这些业务问题,可能是个人投顾无法直接服务全体客户;可能是传统电话客户服务成本高、效率低,客户体验不好;可能是内部流程效率较低,无法满足客户变化的金融需求;也可能是投研和投顾人员缺少可以服务客户资讯平台等。

证券行业智能化应用狭义的应用领域,包含智能投顾(机器人理财)、智能客服、智能资讯推荐、智能投研数据平台、智能数据应用平台等。其主要解决的还是效率问题,本质还是券商服务的自动化和智能化,可以提升客户体验和降低服务成本。

证券行业智能化应用的一个前提是海量数据,包含交易数据和行为数据。但是这些数据不是原始数据,而是经过业务专家标注的、具有业务价值的数据,可能是标签数据、归类数据和分析结果数据。

行为数据对于智能应用具有较大的商业价值,例如在智能客服中,客户的行为数据代表其产品和风险偏好,智能客服可以基于这些处理过的行为数据,为客户打上标签。基于行为数据进行客户分群或分层,智能客服将参考这些行为数据定制客户服务内容,直接有效地为客户提供金融产品服务。借助于行为数据标签,智能客服将会缩短服务路径,直接切入客户喜好,提升客户体验,提高服务效率。

例如,如果行为数据揭示客户倾向于港股交易,智能客服在服务时就可以侧重于港股资讯。如果客户有融资融券倾向,智能客服就可以提供相关介绍和激励措施。如果行为数据揭示客户倾向投资能源板块,智能客服就可以提供更多的能源资讯,为客户投资提供参考。

智能投顾的原理是参考客户投资风险偏好和投资兴趣,为客户定制投资组合,在一定风险可控的前提下,获得一定的最优收益。行为数据可以支撑智能投顾中客户的投资偏好洞察,通过对客户点击、浏览、关注等行为数据的分析,券商可以了解客户的投资兴趣偏好。

例如客户点击股票所属的板块、关注的交易板块、浏览的资讯,这些行为都可以在一定程度上反映客户的投资兴趣,经过一定分析和加工之后,可以作为标签类数据输入到智能投顾平台,作为智能投顾推荐投资组合的参考信息,有助于提升智能投顾的客户体验和客户购买转化率。

券商移动App行为数据具有intention属性,代表了客户内心的需要,也可以认为是客户理性行为和感性行为的综合,其中感性成分更高一些。中国的投资客户,大部分体现为理性投资客户,但是在进行证券交易时往往体现的是感性一面。因此研究行为数据有利于了解客户心理行为,也就是客户感性行为。行为数据经过加工处理之后,可以表现为标签数据,结合业务场景和交易数据,帮助券商更加客观了解客户金融需求。

券商可以针对客户的兴趣爱好,提供相应的智能资讯和投研报告,协助客户作出更加客观的投资决策。行为数据结合相应的资讯,可以缩短客户决策周期,提升客户交易积极性,有助于提升客户交易额和交易频度。例如,通过行为数据的分析,推送客户关注股票板块的资讯,通过不同组客户测试,发现收到资讯的客户其交易下单率高于非收到资讯客户30%,而收到相应板块资讯的客户其交易下单率高于非收到相关资讯客户50%。

总之,对移动App行为数据的分析和应用可以帮助券商加速产品迭代和提升客户体验,建设与互联网企业同样领先的运营能力,并为券商智能化应用提供具有较高商业价值的数据,推动券商智能化应用的发展。

相关阅读:

搭建三级标签体系,提效证券App运营

三大方面、两个案例,解析用行为数据提升证券App用户体验

咨询专栏 | 券商App行为数据驱动核心业务优化

2018年,成为数据科学家需要哪些技能?(翻译)

作者:Iliya Valchanov

原文:What are the Skills Needed to Become a Data Scientist in 2018?

译者:TalkingData市场部

本译文禁止商用,转载请注明来源!

据Glassdoor,数据科学家是2017年美国的头号职业。这并不意外,因为这一领域的中位基本工资达到了12万3千美元。但数据科学家的就业市场远不饱和,仅在美国就有19万的人才空缺。如果你在考虑转换跑道成为数据科学家,2018年提供了充足的机会。这篇文章旨在帮助梳理如何在2018年成为数据科学家。

为了了解这个发展中的领域,2017年末365 Data Science针对这一主题在进行了调研。这项研究基于从1001名LinkedIn简介中目前职位为“数据科学家”的简历中收集的数据。这个群体被分为两组——就职于财富500强企业的人、以及就职于其他企业的人。此外,样本中数据科学家的工作地点包括美国(40%)英国(30%)印度(15%)以及其他国家(15%)。同时,为了控制偏差,数据收集自不同背景的数据科学家。

男性,至少会说一门外语,并且拥有本科以上学历(硕士或博士)。他拥有4.5年工作经验,并需要花2年来获得(数据科学家)这一头衔。R和Python是首选的编程语言,其次是SQL。

无法忽视,数据科学专业严重被男性掌控,在此次的样本中70%为男性。尽管如此,面对这一领域的巨大需求,只要具备相关知识,任何人都能在行业中拥有一席之地。所以,如果你碰巧是一位女性,不要灰心,请继续读下去。

数据科学家最必要的技能是什么?

以下是数据科学家简历中最常见的技能:

R和Python是数据科学领域的主流编程语言。53%的数据科学家声称掌握R以及/或Python。注意,在某些数据科学家在工作中同时掌握这两种语言。

在不断变化的数据科学世界中,专业人士要在工作中运用最新的工具。R和Python是最基础的编程语言,每个尝试想进入这一领域的人都应该学习。

Stack Overflow社区建议,尽管数据显示R是更为广泛应用的语言,但鉴于 Python是发展最为快速的编程语言,可以考虑将Python放在学习计划的首位。到2019年,Python很有可能会在使用人数方面大幅超越其他编程语言。灵活性和易用性是使得Python脱颖而出的首要原因。

在数据科学家中,其他受欢迎的语言是:

  • SQL(40%)
  • MATLAB (19%)
  • Java(18%)
  • C//C++(18%)

想学习更多?

我们发现,最好也能掌握SAS、LaTex、Hadoop或Tableau。拓展基础之外的专业技能可以显著提升获得数据科学家职位的机会。

工作经验

鉴于数据科学家这一职业诞生不久,也就不意外数据科学家职位经验的中位数只有2年。如果你是在无该领域相关经验的情况下申请数据科学家职位也不用尴尬,你不是一个人。

在此次研究的样本中,只有36%的数据科学家的前一份工作也是数据科学家。在这个领域中还有很大的成长空间。那另外64%的人之前的职位又是什么呢?最为常见的背景是分析师(19%)、IT专家(16%)或者学者(12%)。

并且,8%的人在成为数据科学家之前是实习生。
这些人从零开始实现了梦想。你也可以!

教育与培训

大多数以数据科学家为工作的专业人士受教育程度很高。实际上,结果显示75%的数据科学家不是博士就是硕士。

但是,华丽的学位并非必需。此次研究样本中,大约有25%的数据科学家毕业于“没有进入排名的大学”。换句话说,无论你的母校是否进入了“泰晤士高等教育”榜单(注:由《泰晤士报》评选出的世界顶尖大学排行榜),并不会为你是否能开始数据科学的职业生涯带来决定性影响。

此外,只有13%的人在大学中参与了数据科学或分析学项目。大多数数据科学家的所学专业是计算机科学(20%)统计学和数学(19%)社会科学(19%)。只要你在某一学科有足够的基础,就很有可能迈入数据科学的大门。

因此,你并不是一定要上额外的专业课程来掌握这个工作所需的技能。如果你想升级你的技能,在线课程也是可选的替代方案。近40%的数据科学家在其LinkedIn的个人简历中提到参与了在线课程。

就业行业

一旦你掌握了相关技能,你就需要撸起袖子找份工作。所以,数据科学家工作的首选行业是什么呢?在英国和美国的就业市场,你可以在产业企业(制造、快消、公共事业、咨询等)中找到数据科学家的工作。但在印度并不是这样,那里大多数(68%)的数据科学家在科技或IT企业工作。

医疗保健和金融行业看上去也需要数据科学家,在全部样本中分别占14%和6%。

就业企业

你是更想进入财富500强的巨头,还是更喜欢小型企业?无论企业层级如何,各种规模的企业都在招聘具备R、Python、SQL和Matlab编程能力的数据科学家。但是,如果你的目标是财富500强企业,SAS和Hadoop可能会派上用场。其他企业则很少会要求能够使用Hadoop。财富500强企业中,大数据为王,但对小型企业来讲并非如此。

这是数据科学职业在2017年底的情况和贯穿2018年的趋势。好消息是,即便你没有相关学历或足够的相关工作经验,也还来得及掌握相关技能和工具。如果你对数据和终生学习抱有热情,2018年是开始追求数据科学家职业生涯的好时机。

大数据的“无所不能”与“无能为力”

作者:TalkingData 于兰

本文由TalkingData原创,转载请获取授权。

偶尔与身处传统行业的朋友聊到大数据,朋友说,对大数据怀有一种“敬畏”的心理,认为它很神奇,神奇到似乎可以点石成金无所不能。但身处这个行业,在敬畏它的同时,却不时会被一种深深的无奈所包裹,切实感觉到在梦想面前,大数据也有太多的无能为力。所以今天,我们来聊一聊大数据的”无所不能“与”无能为力“

大数据的“无所不能”

无论是传统工业时代,还是大数据时代,信息是决策的基础:更优的决策,需要更多、更及时的信息——大数据的价值核心,是“消除信息不对称”,即提升人或程序对事物的认知。

因此,大数据可以做很多事情:

  • 在市场营销中,大数据可以帮助市场人员了解客户群体的特征、偏好和购买倾向——只将广告投给需要的人,可以节约被浪费的广告费,却不降低广告的效果;
  • 在金融风控中,大数据可以帮助业务人员了解顾客群体的收入水平、资产情况、借贷历史、违约风险——不向高风险顾客发放贷款,或事先对可疑人员进行核查、采取措施,可以有效降低坏账率,提升资产质量;
  • 在零售经营中,大数据可以帮助领导层了解各商圈的人流量情况、人群特征、周边环境、竞品策略等(是比现场调研更全面、更高效且成本更低的市场分析方案)——选择人流量、人群消费水平更符合本企业定位,且竞品并没有深入挖掘的地点开设新店,意味着在起步阶段就跑在了前面;
  • 在物流运输中,大数据可以帮助经营人员了解各地需求、线路业务量、节点负荷和处理效率——线路规划、节点布局及资源配置、关键节点优化,都可以有效的提升物流效率。

除了以上为企业带来切实利益的大数据应用,伴随着机器学习、人工智能的发展,大数据也为我们展开了更宏伟的蓝图:

  • 语音识别和文本挖掘,使得人与机器的自然交互突飞猛进,各种智能交互机器人层出不穷;
  • 图像识别和处理技术,结合线路规划、智能决策等大数据应用,让无人驾驶站在了时代的风口上;
  • 对各种疾病发展过程、影响因素的分析,及人体状态的监测、感应,形成了健康监护和智慧医疗的前提;
  • ……

一言概之,大数据为“信息获取”开辟了无数的通道,引领我们一路高歌猛进,依靠大数据,我们对周围的世界、对自身、对事物之间的关系都有了更深入的认知,也有了以前想都不敢想的各种处理方案,让我们“无所不能”。

但理想总是“丰满”,现实却是“骨感”,看上去“无所不能”的大数据,本身就带着诸多的“无能为力”。

大数据的“无能为力”

数据质量

伴随“多”的是“无序”,伴随“更多的信息”而来的,可能是“信息冗余”。数据质量,是数据应用之初与生俱来的问题。

要判断移动设备的常驻城市,可能从数据源A得到的是北京,从数据源B得到的天津,而我们压根儿没有明确的标准,来判断数据源A和B到底哪个正确,因为,正是因为不知道才需要寻求外部数据源帮助!

也许你会说,找已知样本测试就可以了。但事实上,很多数据且不说能不能找得到样本,即便能找得到,用作标准的样本本身有多大可信性,也是一个需要验证的问题。

隐私与安全

伴随着大数据的应用,越来越多的数据被“滥用”,隐私被泄漏的问题被曝光。数据应用的程度越高,经过的验证和磨砺越多,准确性越高,所受的监管也就越强,使用过程中所受限制就越多。

对于数据应用方来说,面临的可能是不断的寻找数据源、验证数据有效性、接受监管并调整、寻找新的数据源的过程。

站在数据应用方角度,面临客户隐私与数据安全,会时不时的有深深的“无力感”;但站在整个社会责任的角度,数据隐私与安全则是必须要守住的底线。

边界与壁垒

我们数据应用中的很多设想,都建立在各方数据可无缝打通和关联的基础上,但实际数据应用中,因为数据产生于不同的企业主体、有不同的处理流程和架构,“关联”并不是“无缝”的。

  • 千辛万苦找到了适合的数据源,可能因为双方ID无法打通,导致数据根本无法使用;
  • 战略合作训练了效果很好的模型,可能因为双方数据都无法出各自机房而无法实际投产,寻找绕行路线却又大大牺牲了效果;
  • 数据与场景的结合,可能因为合作双方理解差异导致数据的误用……

如何减少大数据的“无能为力”

首先,建立数据流通标准。“标准”可以在很大程度上解决“质量”的问题,也可以让供需双方更好的对话,降低数据流通的成本;

其次,划定数据安全基线。有“基线”,就有了“基线”范围内的自由和法律保护,将“隐私与安全”作为每一个市场玩家的底线,就不会在安全加码时束手无措倍受打击;

再次,构建数据流通平台。“平台”可以有效承载数据流通的标准,同时更好的打破供需双方的边界壁垒,实现供需有效结合。

TalkingData智能数据服务商城,致力于为数据供应方和数据需求方提供平台,实现数据流通过程中的标准化交付、质量评估、实时计量等公共能力,降低数据交易流通成本。

让理解照进现实,实现大数据的“无所不能”,我们一直在努力。

 

崔晓波出席爱分析中国大数据高峰论坛,总结改造行业的4大步骤

近日,TalkingData创始人兼CEO 崔晓波出席由北京爱分析科技有限公司主办的“2018·爱分析中国大数据高峰论坛”,并在会上做了题为数据智能应用和商业模式发展的演讲。

本次大会吸引了200多位行业精英与投资人共同参与,会议围绕着数据服务、大数据垂直应用、数据分析平台等多个领域进行了深入的探讨。

TalkingData创始人兼CEO 崔晓波

TalkingData创始人兼CEO 崔晓波在演讲中提到:“数据智能”在未来5到10年内是一个非常关键的概念。智能与数据相辅相成,如何运用好数据去创造智能,是企业需要在未来不断探索的方向。

同时,他又从五个方面剖析了 TalkingData 在大数据,特别是数据服务领域里的探索和思考。

一、中美市场的差异与联系

1、技术与基础设施差异

崔晓波认为:数据是链接中美智能应用的桥梁。

近两年来,TalkingData团队与世界最大的数据科学社区——Kaggle共同举办了两场活动。

第一场活动中,由TalkingData提供脱敏后的中国移动互联网行为数据集,邀请全球的数据科学家构建高准确率的人口属性预测模型。约有2600个团队参与了此次活动,共提交了约2万个模型。

通过研究可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识,因此中国真正缺乏的是针对如金融、地产、零售、互联网、工业等各种领域的相关知识,在这些领域里仍需要去长时间的探索。

目前,TalkingData又与Kaggle共同发起了名为:TalkingData 全球广告反欺诈算法大赛的活动。

TalkingData此次提供中国在广告反欺诈中遇到的大量相关问题和数据,而这正是很多国外的数据科学家难以遇到的。可以看出,中国在应用领域已经迈入前沿,但仍缺乏技术和基础设施。

2、数据安全上的差异

此外,中美在数据安全方面也有差异,崔晓波提到:真正拥有数据的企业不愿共享数据,而是选择垄断,因为很多技术问题尚未解决——如何安全的共享数据、以及数据合规等问题。

数据安全与网络安全情况迥异,企业IT系统由云、IDC以及内部网络构成,因此网络外面需要有一层边界,不能让黑客进来,但若该层边界都有问题,或企业出现内鬼,又如何保障数据安全呢?像 Facebook,其在数据安全上投入巨大,也出现了非常新的技术,例如可以通过网关看到企业所有的数据流动,信息如何从一点到另一点,又如何被使用。在这方面中国没有积累,技术上的差距有5到10年。

TalkingData 致力于解决这些问题,推出一套体系,在数据不流动的情况下也可以共享的解决方案。

业务的问题要回归技术,最终仍要用技术本身去解决问题,这是中国企业所欠缺的。因此崔晓波认为,中国下一阶段的数据服务需要突破技术的限制。

二、从实体物质化到虚拟数字化

崔晓波提到:“我们看世界的角度将从实体物质化转向数字虚拟化”。这将是未来的发展趋势。

未来是机器学习、深度学习的时代,Google 在2014年、2015年就将大量资源投入到机器学习研究中,因此在2016年,AlphaGo出现了。

AlphaGo将物理世界数字虚拟化,之后就可以用不断增长的计算机算法去加速学习过程,达到破局的效果。

但是在绝大部分领域还做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。

自动驾驶技术达到L5(完全自动驾驶)就会颠覆了原有行业,但在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类诊断,其价值就有限。

要达到产生颠覆的阶段,所需要的时间远比我们想像的要长。

崔晓波认为,大家现在对人工智能过于乐观,未来几年会有所回落,但技术本身是非常具有价值的。

TalkingData创始人兼CEO 崔晓波

三、大数据通过四个步骤改造一个行业

根据TalkingData的经验,不管何种行业都可以从四个步骤去进行改造。

  • 业务数据化
  • 应用场景化
  • 流程自动化
  • 决策智能化

首先是业务数据化

根据以往经验,很多传统行业的业务流程没有真正数据化,业务好或不好都没有一套数据体系、指标体系、方法论体系去进行评估管理,而“业务数据化”就是各种大数据、商业智能等技术搅合在一起的过程。

其次是应用场景化

这里特指数据应用的场景化——在完成数据化后,考虑用何种方法提升业务,用大数据、算法模型、机器学习的方法去做应用场景化。

但目前该过程还是更多基于人工,基于分析师对业务的了解或个人经验,中国90%以上的企业还处于这样的阶段,包括互联网企业。

第三是流程自动化

已经有一些头部企业走到了这一步,比如TalkingData正在合作的某餐饮企业,其拥有50人的数据团队,非常重视数据预测——卖多少汉堡、卖多少咖啡。在TalkingData的帮助下,其预测准确率已经达到95%以上,整个过程需要运用大量的数据,包括天气、路况、客流、历史交易等等。

该餐饮企业可以据此优化第二天的排班、供应链情况,计算下来一年节省上亿元的费用。

第四是决策智能化

TalkingData也为企业选址提供帮助,因为对于下线零售商来说,店铺位置也就决定了这家店是否能成功的百分之七八十。例如TalkingData为某客户提供的选址服务,通过客户提供的三年历史收入数据,经过建模和优化,不仅能够准确预测历史收入,还能够进一步预测新店未来三年的收入,并且实现了自动化预测。之前该企业有200人的选址团队,现在只需要20人,这是TalkingData帮助优化的结果。

以上几步完成后,还有一些头部企业进入到了效益数字化的阶段,当企业完成智能化后,已经有了很强的数据能力,这时企业开始考虑能否将该能力开放给其他企业,将其做成一些指标甚至是智能APP,提供给供应商和下游,甚至将业务切出来,再覆盖产业链中的中小企业。这也是TalkingData正在研究的一个模式。

四、数据智能演进的三个阶段

从TalkingData角度来看,数据智能的演进分为三个阶段:

1)Data到Analysis:拥有大量数据,帮助开发者做分析,但从数据到分析只是浅层次重复,无法形成闭环和带来效益提升。

2)Data到Action:走不通第一阶段,尝试下一步,看数据能做什么,比如是否能优化广告和营销。这在国外可行,但国内很难,因为中国拥有太多的不透明。诺大的网络有很多不透明的算法,将数据的算法逻辑都抵消掉了。

3)Data到Data Science:现在越来越多的企业走到第三个阶段,将数据变成数据模型,证明数据在什么地方对商业有价值。对于企业来说,模型比人工更具有优势,运用之后后以前能做50个产品现在能做500个,这就是提升。

通过Data到Data Science形成闭环,依赖模型持续提升效果,现在是大家的共识。

五、数据服务价值长期才能显现

数据回报定律是指在指数级世界里,数据对商业价值的回报都是加速的,TalkingData服务的所有企业都有这个趋势。

第一年看不到数据对商业有特别明显的回报,而在第二、第三年后就很明显。

TalkingData服务的很多客户都是例证,通过数据真的可以每年节省上亿费用或带来非常可观的回报。

但目前也有很多数据企业急于求成,对客户承诺三个月或半年即可产生帮助,但其实很难做到,结果一定是两三年以后才能显现。

TalkingData发布“透明化”Ad Tracking合作伙伴平台

TalkingData发布“透明化”Ad Tracking合作伙伴平台

基于TalkingData Ad Tracking移动广告监测平台数据,2017年,移动效果广告点击总量相比2016年增长超过17倍;移动效果广告推广激活总量同比增长41.9%,点击量增速远超激活,利用虚假点击刷量情况依然不容忽视。

过去一年,TalkingData Ad Tracking一直致力于打击黑产刷量,陆续曝光了一批刷量渠道以及相关作弊手段,并上线发布相关反作弊产品模块。《制衡刷量“四大术”,TalkingData Ad Tracking上线高级版作弊防护功能》

在统计相关刷量数据时,TalkingData Ad Tracking团队发现了大量监测短链套用现象,导致媒体、广告主、代理商之间出现了明显分歧。为了保证渠道合作伙伴的权益,更准确的量化渠道价值,2018年4月,TalkingData发布了“透明化”Ad Tracking合作伙伴平台,针对性解决监测短链套用问题,赋能于合作伙伴,打造公开透明的广告监测生态。

TalkingData Ad Tracking合作伙伴平台

合作伙伴可以通过平台监控渠道下所有推广活动,并进行审核操作,一旦发现套用情况,可将其立即拒绝,Ad Tracking系统将即刻停止接收推广活动数据,避免出现渠道数据统计偏差;

TalkingData发布“透明化”Ad Tracking合作伙伴平台

Ad Tracking合作伙伴平台Demo产品图

在解决监测短链套用问题的同时,TalkingData Ad Tracking合作伙伴平台还向广大合作伙伴提供了流量基本数据查看权限,合作伙伴可以直接通过平台了解推广活动广告流量及转化数据,避免了繁复的授权过程,缩减人力成本

TalkingData Ad Tracking将秉持以“客户优先”的企业价值观,持续加强产品功能,与各大广告平台保持牢固的合作伙伴关系,继续优化数据挖掘算法,与广告主、媒体、广告网络、代理商等携手打造更加透明的广告生态,推动行业向更加良性的方向发展。

即日起,已入驻TalkingData Ad Tracking的合作伙伴即可申请开通平台账户,开通方式:

  • 合作伙伴技术沟通群(优先)
  • 24小时值班电话:4008701230
  • TalkingData 技术支持群:203585475