数据科学家,还是非“野生”的比较好

作者:佚名

本文转自:大数据文摘

公民数据科学家(Citizen Data Scientist , CDS)的概念始于2017年,在2018年火爆全球。

似乎可以将CDS看作公民科学家概念的延续,这个概念背后的想法是:技术辅助工具已经非常先进,自动化调参工具的出现、各种MOOC自学平台上课程和实验室层出不穷,所以现在,如果付出足够多的学习时间,似乎所有人都可以迅速具备收集和分析数据的能力,也就是,成为一名“数据科学家”了。

似乎可以将CDS看作公民科学家概念的延续,这个概念背后的想法是:技术辅助工具已经非常先进,自动化调参工具的出现、各种MOOC自学平台上课程和实验室层出不穷,所以现在,如果付出足够多的学习时间,似乎所有人都可以迅速具备收集和分析数据的能力,也就是,成为一名“数据科学家”了。

这一概念不止激励鼓舞了大批想要成为“数据科学家”的个人,也让很多缺人的企业有了希望。

数字信息的增长已经对数据科学和分析专业人员产生了越来越大的需求。与之相对,相关人才供给远远不够。因此,供需之间的差距正在扩大。

不断增长的数据职场缺口下,雇佣这一类公民数据科学家,是许多大公司面临“人荒”困境,寄予厚望的解决方案。

大批非相关专业出身、靠着自我培训和技术工具成长起来的公民数据科学家,开始涌入这个领域。

草根公民数据科学家的特征

那么,“草根”出身的公民数据科学家有什么特点呢?

如上图,尽管是非统计等数据科学相关专业出身,我们并不否认,来自业务领域或者其他专业的公民数据科学家,本身具备以下优点:

  • 深耕业务领域,对组织机构有深刻认知,对与业务优先次序相关的问题的兴趣;
  • 对商业领域有独特视角、分析技术在商业问题中的实证应用、可以证明商业价值;
  • 参与多个分析领域和活动、有着实践经验并且有着广泛人脉。

“草根”数据科学家有风险

“草根”公民数据科学家越来越多,他们开始不止从事最基本的数据收集和分析工作,也开始承担数据的预测等核心工作。

就像耐克声称他们的Air Jordans可以让每个邻居小孩成为下一个皮蓬(Scottie Pippen)非常不靠谱一样,技术带来的辅助力量是有限的,风险也开始随之出现。

显而易见,虽然现在所有电动工具都可以在商店买得到,但并不是所有人都可以成为木匠大师;就算有很多在线炒股软件,也并非所有人都能成为百万富翁交易员。

真正的科学要通过专业训练。这是不管多少技术工具都无法取代的。

“高质量的数据仍然非常重要”,针对“公民数据科学家”,全美排名第四的CTO、天睿公司首席技术官、全球数据仓库技术专家Stephen Brobst告诉大数据文摘,现在尽管分析工具越来越智能,但他们的使用前提依然是没有偏向(bias)的数据,和懂得这些数据的专业人士。

“深度学习算法实际上非常适合处理数据质量问题。很多公司现在用无监督学习的反馈循环来解决数据质量问题,但我们还是希望,在数据搜集的过程中就尽量最小化数据偏见。数据科学没有魔法,它不是一个工具就可以解决的问题。你可以通过一些步骤来测试有偏见的数据,但这是件很微妙的事情。”

“你必须雇用那些知道自己在做什么的人。”Stephen称,业内现在存在很多只懂业务、不懂统计的“公民数据科学家(citizen data scientist),这是非常危险的。他们严重依赖技术工具进行数据搜集和分析,并不知道自己在做什么,“这很可能会导致严重破坏性的结果。”

“草根”数据科学家为什么危险?

以下几种原因可以解释:

首先,认知偏差。下边这张图可以很清楚地解释什么是认知偏差。

技术能力可以靠短期培养,但是,认知能力不行,它需要几年甚至十几年的专业训练。不同专业的人对待同一组数据和场景会有很不同的认知。

其次,研究逻辑谬误,或者说辛普森悖论。

所有技术工具的使用前提是假设你的数据首先是优质无偏差的,大多数“草根”数据科学家通过SQL入门,并直接跳入Keras和TensorFlow ……

毕竟MOOC(慕课,同为在线学习网站)的认证课程中就是这么教的。

第三,数据的民主化并不直接导致洞察力的民主化。

这一点很容易理解。eBay并没有让每个人都一夜成为零售巨头,手机也并没有提高人们的智商。尽管现在我们比以往任何时候都有着更多的健康和饮食信息,但世界上的人比以往任何时候都更加肥胖。工具速度,工具规模,正确的使用方法 – 这些永远不会取代真正的专业训练。

所以,放弃“草根”数据科学家的幻想吧!

现在坐下来脚踏实地学习一些有意义的、真正的智慧建立和验证的东西。技术工具允许我们所有人都充满渴望,只有那些投入时间和精力,拥有专业训练和教育的人才能够提升到可以提供有意义和预测性分析的水平。

咨询专栏丨信用卡App运营中的数据分析

排在“衣食住行”的首位,服装早已从遮体的生活必需,演变为个性化的态度彰显,服装行业也成为新零售的一个典型场景,不断探索新思路、新玩法。

数据显示,预计到2019年,服装消费市场规模将达到15,920亿元。市场虽大,但竞争也异常激烈,新消费时代下的市场消费结构与大众消费需求的改变,促使服装品牌纷纷踏上转型的征途。在国际大牌与快时尚品牌的夹击下,本土服装品牌该如何破局?旗下拥有六大品牌、站稳细分市场领军地位的影儿时尚集团,已经走出了成功的一步。

从以产品为核心的传统运营方式,转向以消费者为中心的新运营方式,影儿时尚集团开启了从设计到生产交付、从营销到销售、从运营到服务的全面变革,通过场景、互动、连接、体验来提高品牌用户粘性,挖掘创造新客群、新需求、新服务。

围绕消费者打造整合线上线下的数字化运营闭环,推动会员的数字化运营,实现业务价值的可量化效果是转型的关键步骤。影儿时尚集团选择与国内领先的第三方数据智能服务商TalkingData合作,以数字化运营、数字化决策为目标,构建数字资产、搭建数据平台,实现消费者数字化、产品数字化、渠道数字化,以服务业务应用。

影儿时尚集团数字化会员项目总体设计蓝

基于这些需求,TalkingData为影儿时尚集团定制了数字化基础架构、数字化平台技术、数字化平台应用、数字化业务场景、数字化运营五大部分组成的整体解决方案。

一方面,搭建数字化基础架构,提供一系列数字化平台技术,通过专业的业务咨询团队,整合一方交易数据、二方用户行为数据、三方外部补充数据。另一方面,基于影儿时尚集团自身业务特征设计相应会员、产品、渠道标签体系。此外,构建满足多品牌、多渠道、多业态用户运营的不同模型组合,满足影儿时尚集团全渠道运营、会员数字化运营、微商城数字化运营的业务诉求。

通过数字资产建设、数字化平台建设、数字化运营三大阶段,TalkingData用半年时间帮助影儿时尚集团走通了从数据到业务的闭环:

  • 数字资产建设:TalkingData对影儿时尚集团的业务形态与运营现状进行了深入调研,制定数据采集规范与会员标签体系,洞察用户价值表现和所处生命周期,预测后续购买情况,帮助影儿时尚集团优化营销资源配置,最大化营销效果。
  • 数字化平台建设:搭建数据平台、用户运营平台、商城运营分析平台,将数据整合为业务需求,并为业务部门和信息技术部门提供专业培训。同时借助线下数据收集和积累,量化分析客流趋势与不同门店客群特征,为门店渠道选择提供线索。
  • 在前两个阶段的基础上,形成数字化运营闭环体系。基于业务场景和用户画像制定营销活动策略,运用标签体系进行目标人群圈选与精准触达。同时对活动过程实现全链路数据监测追踪,实时通过数据反馈调整活动,最终分析活动整体从曝光到消费的效果转化,进而指导后续活动策略和人群运营策略的优化。

数字化活动运营流程设计

在近期的一次拉新活动中,通过TalkingData外部数据标签和影儿时尚集团会员数据进行打通,对影儿时尚集团用户的画像洞察发现客户群中有大量忙于工作的妈妈人群,同时根据线上的行为特征发现和某专业洗护品牌具有强关联性。

因此针对性设计了“减轻妈妈家务负担”活动主题,选择该专业洗护品牌作为异业合作方,最终实现单次推广公众号增粉4万多人、获新4千多人、ROI高达30倍的优异成绩。更为重要的是通过此次活动跑通了从业务场景出发、圈取人群投放、过程监测与最终效果分析的数据化运营路径,赋能影儿集团数字化运营能力,是对影儿时尚集团与TalkingData合作构建数字化运营闭环体系价值的一次最佳验证。

关于影儿时尚集团

影儿时尚集团自1996年成立以来,先后创建了YINER音儿、INSUN恩裳、PSALTER诗篇、Song of Song歌中歌、OBBLIGATO奥丽嘉朵和XII BASKET 十二篮六大品牌,成为一家集投资、研发、创意、营销、服务于一体、以时尚行业为主导、跨行业发展的大型多元化企业。

目前,影儿时尚集团拥有深圳龙华、观澜和上海松江三大产业园,在全国拥有14大区域销售分公司,1500多家门店和数百万会员,领先同侪,被业内专家认为是“中国服装业国际化的开始,将带动深圳乃至全国女装的国际化发展。”

案例丨TalkingData助力影儿时尚集团产消者数字化运营

排在“衣食住行”的首位,服装早已从遮体的生活必需,演变为个性化的态度彰显,服装行业也成为新零售的一个典型场景,不断探索新思路、新玩法。

数据显示,预计到2019年,服装消费市场规模将达到15,920亿元。市场虽大,但竞争也异常激烈,新消费时代下的市场消费结构与大众消费需求的改变,促使服装品牌纷纷踏上转型的征途。在国际大牌与快时尚品牌的夹击下,本土服装品牌该如何破局?旗下拥有六大品牌、站稳细分市场领军地位的影儿时尚集团,已经走出了成功的一步。

从以产品为核心的传统运营方式,转向以消费者为中心的新运营方式,影儿时尚集团开启了从设计到生产交付、从营销到销售、从运营到服务的全面变革,通过场景、互动、连接、体验来提高品牌用户粘性,挖掘创造新客群、新需求、新服务。

围绕消费者打造整合线上线下的数字化运营闭环,推动会员的数字化运营,实现业务价值的可量化效果是转型的关键步骤。影儿时尚集团选择与国内领先的第三方数据智能服务商TalkingData合作,以数字化运营、数字化决策为目标,构建数字资产、搭建数据平台,实现消费者数字化、产品数字化、渠道数字化,以服务业务应用。

影儿时尚集团数字化会员项目总体设计蓝图

基于这些需求,TalkingData为影儿时尚集团定制了数字化基础架构、数字化平台技术、数字化平台应用、数字化业务场景、数字化运营五大部分组成的整体解决方案。

一方面,搭建数字化基础架构,提供一系列数字化平台技术,通过专业的业务咨询团队,整合一方交易数据、二方用户行为数据、三方外部补充数据。另一方面,基于影儿时尚集团自身业务特征设计相应会员、产品、渠道标签体系。此外,构建满足多品牌、多渠道、多业态用户运营的不同模型组合,满足影儿时尚集团全渠道运营、会员数字化运营、微商城数字化运营的业务诉求。

通过数字资产建设、数字化平台建设、数字化运营三大阶段,TalkingData用半年时间帮助影儿时尚集团走通了从数据到业务的闭环:

  • 数字资产建设:TalkingData对影儿时尚集团的业务形态与运营现状进行了深入调研,制定数据采集规范与会员标签体系,洞察用户价值表现和所处生命周期,预测后续购买情况,帮助影儿时尚集团优化营销资源配置,最大化营销效果。
  • 数字化平台建设:搭建数据平台、用户运营平台、商城运营分析平台,将数据整合为业务需求,并为业务部门和信息技术部门提供专业培训。同时借助线下数据收集和积累,量化分析客流趋势与不同门店客群特征,为门店渠道选择提供线索。
  • 在前两个阶段的基础上,形成数字化运营闭环体系。基于业务场景和用户画像制定营销活动策略,运用标签体系进行目标人群圈选与精准触达。同时对活动过程实现全链路数据监测追踪,实时通过数据反馈调整活动,最终分析活动整体从曝光到消费的效果转化,进而指导后续活动策略和人群运营策略的优化。

数字化活动运营流程设计

在近期的一次拉新活动中,通过TalkingData外部数据标签和影儿时尚集团会员数据进行打通,对影儿时尚集团用户的画像洞察发现客户群中有大量忙于工作的妈妈人群,同时根据线上的行为特征发现和某专业洗护品牌具有强关联性。

因此针对性设计了“减轻妈妈家务负担”活动主题,选择该专业洗护品牌作为异业合作方,最终实现单次推广公众号增粉4万多人、获新4千多人、ROI高达30倍的优异成绩。更为重要的是通过此次活动跑通了从业务场景出发、圈取人群投放、过程监测与最终效果分析的数据化运营路径,赋能影儿集团数字化运营能力,是对影儿时尚集团与TalkingData合作构建数字化运营闭环体系价值的一次最佳验证。

关于影儿时尚集团

影儿时尚集团自1996年成立以来,先后创建了YINER音儿、INSUN恩裳、PSALTER诗篇、Song of Song歌中歌、OBBLIGATO奥丽嘉朵和XII BASKET 十二篮六大品牌,成为一家集投资、研发、创意、营销、服务于一体、以时尚行业为主导、跨行业发展的大型多元化企业。

目前,影儿时尚集团拥有深圳龙华、观澜和上海松江三大产业园,在全国拥有14大区域销售分公司,1500多家门店和数百万会员,领先同侪,被业内专家认为是“中国服装业国际化的开始,将带动深圳乃至全国女装的国际化发展。”

AI丨看大神是如何总结2018和预测2019的(下)

前期回顾
在上一篇文章中,Pranav Dar 总结了自然语言处理(NLP)、并对2019年的计算机视觉进行了预测,本篇文章,我们再来看看相关的工具和库,以及强化学习和AI方面的2019年预测。

01、工具和库
本节将吸引所有数据科学专业人士。工具和库是数据科学家的食粮。我参与了大量关于哪种工具最好、哪个框架取代另一个、哪个库是经济计算的缩影等等的辩论。我相信你们中的很多人也都曾参与过。
但有一点我们都会同意:我们需要掌握本领域的最新工具,否则就有被落下的风险。 Python取代了其他语言并将自己打造成行业领先就是这样的例子。当然,其中很多原因都归结为主观选择(您的组织使用什么工具,从当前框架切换到新框架的可行性等等),但如果您甚至没有考虑过最先进的技术,那么我要恳求你现在开始。
那么今年成为头条新闻的是什么?我们来看看吧!

02、PyTorch 1.0
关于PyTorch都在大肆宣传什么?我已经多次在本文中提到它了。

AI丨看大神是如何总结2018和预测2019的(下)
鉴于TensorFlow有时较为缓慢,这为PyTorch打开了大门,并以两倍的速度获得了深度学习市场。我在GitHub上看到的大部分代码都是PyTorch概念的实现。这并非巧合—PyTorch非常灵活,最新版本(v1.0)已经大规模推动了许多Facebook产品和服务,包括每天执行60亿次文本翻译。
PyTorch的使用率在2019年只会上升,所以现在正是加入的好时机。

03、AutoML – 自动机器学习
自动机器学习(或AutoML)在过去几年中逐渐取得进展。 RapidMiner,KNIME,DataRobot和H2O.ai等公司发布了出色的产品,展示了这项服务的巨大潜力。
你能想象在机器学习项目上工作,只需要使用拖拽交互而无需编码吗?这种情况在未来并不太遥远。但除了这些公司之外,ML / DL领域还有一个重要的发布- Auto Keras!

AI丨看大神是如何总结2018和预测2019的(下)

它是一个用于执行AutoML任务的开源库。其背后的想法是让可能没有ML背景的领域专家进行深度学习,它准备在未来几年内大规模运行。

04、TensorFlow.js – 浏览器中的深度学习
自从我们进入这条工作线以来,我们一直在我们最喜欢的IDE和notebook中构建与设计机器学习和深度学习模型。如何迈出一步并尝试不同的东西? 如何网络浏览器中进行深度学习?

AI丨看大神是如何总结2018和预测2019的(下)
感谢TensorFlow.js的发布,现在已成为现实。该链接有一些demo展示了这个开源概念有多酷。TensorFlow.js主要有三个优点/功能:

  • 使用JavaScript开发和部署机器学习模型
  • 在浏览器中运行预存的TensorFlow模型
  • 再训练预存的模型

05、2019年AutoML趋势预测
我想在这个领域中特别关注AutoML。为什么?因为我认为未来几年它将成为数据科学领域真正的游戏规则改变者。但不要只听我说的话!听听H2O.ai的Marios Michailidis,Kaggle Grandmaster,他们对2019年AutoML的预期是什么:
机器学习继续成为未来(世界将走向何方)最重要的趋势之一。这种发展增加了对这一领域熟练应用的需求。鉴于它的增长,自动化成为尽可能最好地利用数据科学资源的关键是势在必行的。应用也是无限的:信用,保险,欺诈,计算机视觉,声学,传感器,推荐器,预测,NLP,都由你来定义。这是在这个领域工作的特权。将会在2019年继续变得重要的趋势有:

  • 提供智能可视化和洞察,以帮助描述和理解数据
  • 为给定数据集找到/构建/提取更好的特征
  • 快速构建更强大/更智能的预测模型
  • 利用机器学习可解释性(mli)消除黑盒建模与生产这些模型之间的差距
  • 促进这些模型的生产

06、强化学习

如果我不得不选择一个我希望看到更多渗透的领域,那就是强化学习。 除了我们偶尔不定期看到的头条新闻之外,还没有一个改变游戏规则的突破。我在社区中看到大家一般的看法是,它的数学太重了,并且没有真正的行业应用程序可供使用。

虽然这在某种程度上是正确的,但我希望看到明年有更多来自RL的实际用例。 在我的每月GitHub和Reddit系列中,我倾向于至少保留一个关于RL的资源或讨论,以至少促进一次围绕该主题的讨论。 这些可能是所有研究中出现的下一个大事件。

OpenAI已经发布了一个对初学者来说非常有用的工具包,我在下面会提到。你也可以看看这个对初学者很友好的介绍(这对我来说非常有帮助)。
如果有什么我错过了,很想听听你的想法。

07、OpenAI在深度强化学习中的应用

超全表情素材网,在线免费制作微信朋友圈图片、装逼图片、微信头像、朋友圈刷屏、搞笑网络证件、搞笑表情包。

如果说RL的研究进展缓慢,那么围绕它的培训材料就很少。但实际上,OpenAI已经开放了一些这个主题的精彩材料。他们称这个项目为“Spinning Up in Deep RL”。
实际上它是RL非常全面的资源列表,他们试图尽可能简化代码和解释。有很多材料包括RL术语,如何成长为RL研究角色,重要论文列表,一个记录完备的代码存储库,甚至还有一些练习来帮助您入门。
别再拖延了 – 如果你打算开始使用RL,那么是时候了!

08、Google 的Dopamine

为了加速研究并让社区更多地参与强化学习,GoogleAI团队开源了Dopamine,这是一个TensorFlow框架,旨在更灵活和可重复的来创建研究。

AI丨看大神是如何总结2018和预测2019的(下)

您可以在GitHub中找到完整训练数据以及TensorFlow代码(仅15个Python notebook!)。这是在可控和灵活的环境中进行简单实验的完美平台。听起来像任何数据科学家的梦想。

09、2019年强化学习的趋势

Xander Steenbrugge是DataHack Summit 2018的发言人,也是ArxivInsights频道的创始人,可以说是强化学习的专家。以下是他对RL当前状态的看法以及2019年的预期:
我目前在RL领域看到三个主要问题:

  • 样本复杂性(本体为了学习,需要查看/收集的经验量)
  • 泛化和转移学习(训练任务A,测试相关任务B)
  • 分层RL(自动子目标分解)

我相信前两个问题可以通过一组与无监督学习相关的类似技术来解决。目前在RL中,我们正在训练深度神经网络,其使用稀疏奖励信号(例如,Atari游戏的得分或者机器人成功抓取)以原始输入空间(例如像素)映射到端对端的行为(例如,使用反向传播)。这里的问题是:
实际上“增加”有用的特征检测器需要很长时间,因为信噪比非常低。 RL基本上以随机动作开始,直到幸运地偶然发现奖励,然后需要弄清楚特定奖励是如何实际发生的。进一步的探索要么是硬编码(ε-贪心探索),要么是鼓励用好奇心驱动的探索等技术。这不是有效的,这导致问题1。
其次,这些深度NN架构众所周知非常容易过度拟合,而在RL中,我们通常倾向于在训练数据上测试本体 ->在这种范例中实际上鼓励过度拟合。
我非常热衷的一种可能的方法,是利用无监督的学习(自动编码器,VAE,GAN,……)来将一个杂乱的、高维的输入空间(例如像素)转换为一个具有某些期望性质的低维“概念”空间,例如:线性,消纠缠,对噪音的鲁棒性,……
一旦你可以将像素映射到这样一个有用的潜在空间,学习突然变得更容易/更快(问题1),并且你也希望在这个领域学到的策略会因为上面提到的属性(问题2)而具有更强的概括性。 )
我不是层次结构问题的专家,但上面提到的所有内容也适用于此:在潜在空间中解决复杂的分层任务比在原始输入空间中更容易。
越来越多的辅助学习任务增加了稀疏的外在奖励信号(好奇驱动的探索,自动编码器式预训练,环境因素的退纠缠等),因此样本复杂性将继续提高。这将特别适用于非常稀疏的奖励环境
因此,直接在物理世界中的训练系统将变得越来越可行(而不是当前在模拟环境中训练大多数应用程序,再使用域随机化转移到现实世界)。我预测2019将带来第一个真正令人印象深刻的、仅使用深度学习方法的机器人demo,而非硬编码/人工设计(不像我们目前所见的大多数演示)
继AlphaGo中的Deep RL取得重大成功之后(特别是最近的AlphaFold成果),我相信RL将逐步开始提供在学术领域之外,能够创造真实世界价值的实际商业应用程序。这最初仅限于精确模拟器,可用于对这些本体进行大规模虚拟训练的应用(例如药物发现,电子芯片架构优化,车辆和封装布线……)
正如已经发生的一样,RL开发将有一个普遍的转变,即在训练数据上测试本体将不再被视为“允许”。泛化指标将成为核心,就像监督学习方法一样

10、人工智能 – 走向道德的人工智能

想象一个由算法统治的世界,它控制着人类采取的每一个行动。这并不是一个美好的场景,对吧? AI中的道德规范是在Analytics Vidhya一直热衷讨论的话题。在所有技术讨论中,每当它应该与这些主题一起考虑时陷入困境。
今年有相当多的组织因为Facebook的剑桥分析公司丑闻和Google内部盛传的关于设计武器的新闻而狼狈不堪。但所有这一切导致大型科技公司暂缓了他们打算遵循的章程和指导方针。
没有一个开箱即用的、或适合处理所有AI的道德问题的解决方案。它需要一种细致入微的方法,并结合领导层提出的结构化路径。让我们看看今年早些时候令人震撼的一些重大举措。

11、Google和微软的改革

看到大公司把重点放在AI的这一方面令人振奋(尽管导致这一点的道路不是很好)。我想引导您注意其中几家公司发布的指导方针和原则:

  • Google的AI原则
  • Microsoft的AI原则

这些基本都在谈论人工智能的公平性以及何时何地划清界限。当你开始一个新的基于AI的项目时,参考它们是一个好主意。

12、GDPR如何改变游戏规则

GDPR或称为通用数据保护法规势必会对用于构建AI应用程序的数据收集方式产生影响。 GDPR发挥作用,以确保用户可以更好地控制他们的数据(收集和分享哪些信息)。
那么这对AI有何影响?如果数据科学家没有数据(或足够数据),那么构建任何模型都无望成功。这无疑是社交平台和其他网站运作的阻碍。 GDPR将是令人着迷的案例研究,但目前,它限制了AI在许多平台上的实用性。

13、2019年伦理AI的趋势预测

这是一个灰色的领域。就像我提到的那样,没有一个解决方案。我们必须作为一个社区聚集在一起,将伦理整合到AI项目中。我们怎样才能实现这一目标?正如AnalyticsVidhya的创始人兼CEO Kunal Jain在2018年DataHack峰会上的演讲中所强调的那样,我们需要确定一个其他人可以遵循的框架。
我希望看到组织中可以增加主要处理AI伦理问题的新角色。随着AI成为公司愿景的核心,需要重新制定公司最佳实践及治理方法。我还期望政府在这方面发挥更积极的作用,制定新的或修改后的政策。确实,2019年将是非常有趣的一年。

14、总结

有影响力——是唯一能简洁描述2018年惊人进展的词。今年我成为ULMFiT的狂热用户,我也很期待探索BERT。确实很激动人心。

AI丨看大神是如何总结2018和预测2019的

在之前的推送中,我们看到了很多专家对AI、数据科学与分析的2018年总结以及2019年趋势预测,今天我们再来看看2018年AI、机器学习的技术概述及2019年发展趋势,本文是TalkingData University翻译自Medium上的一篇文章,原文作者Pranav Dar,点击【阅读原文】可查看英文原文。

注:由于文章过长,将分为上下两次进行推送,上半部分主要的内容为:自然语言处理(NLP)、计算机视觉的相关内容。

导论

过去几年对AI爱好者和机器学习从业者来说像梦一样。 这些技术已经从利基发展成为了主流,并且今天正在影响着数百万人的生活。各国现在都有专门的AI部门和预算,确保自己一直与处于这场比赛之中。

对数据科学专业人员来说也是如此。 几年前,你会很自然地知道一些新的工具和技术。 但现在不是了! 在这个领域发生了很多事情,有太多都需要加快脚步跟上,甚至有时令人难以置信。

这就是为什么我想从数据科学从业者的角度,退一步看AI一些关键领域的发展。这些突破是什么? 2018年发生了什么,2019年会发生什么?

P.S. 与任何预测一样,这些都是我的结论。这些是我试图连接起来的点。 如果您有不同的观点 ,可以在本文下的留言区域畅所欲言。

我们将在本文中覆盖的领域:

  • 自然语言处理(NLP)
  • 计算机视觉
  • 工具和库
  • 强化学习
  • 更好的AI – 伦理AI

自然语言处理(NLP)

让机器解析单词和句子似乎是在做梦。语言在方方面面有太多的细微差别,甚至人类有时都难以掌握,但2018年确实是NLP的分水岭。

我们看到了一个又一个显著的突破–

ULMFiT,ELMo,OpenAI的Transformer和Google的BERT等等。迁移学习(能够将预训练模型应用于数据的艺术)成功应用于NLP任务,为无限的潜在应用打开了大门。近几次我们与Sebastian Ruder的播客进一步巩固了我们对他的领域继续走下去的信念。(提醒一下,这是所有NLP爱好者必读的播客)。

ULMFiT

ULMFiT是由Sebastian Ruder和fast.ai的Jeremy Howard设计、今年第一个启动NLP迁移学习的框架。对于没有经验的人来说,它代表通用语言模型微调。 Jeremy和Sebastian真的在ULMFiT中做到了“通用”这个词—该框架几乎可以应用于任何NLP任务!

谈到ULMFiT中最棒的部分以及我们即将看到什么样的后续框架?你不需要从头开始训练模型!这些研究人员为您完成了困难的部分,您可以学习并将其应用到您自己的项目中。ULMFiT是六个文本分类任务中表现最优的。

您可以阅读Prateek Joshi所作的优秀教程,关于如何开始使用ULMFiT解决任何文本分类问题。

ELMo

想猜猜ELMo代表什么?它是语言模型嵌入的简称。很有创意吧?除了名字与著名的芝麻街角色相似,ELMo一发布就引起了机器学习社区的注意。

ELMo使用语言模型来获取每个单词的嵌入,同时还会考虑单词适用的句子或段落上下文。语境是NLP一个非常重要的方面,但大多数人以前都没有掌握。ELMo使用双向LSTM来创建嵌入。如果这听起来很拗口也不用担心 – 请查看这篇文章(原文有链接),以便非常简单地了解LSTM是什么以及它们是如何工作的。

与ULMFiT一样,ELMo显著提高了众多NLP任务的性能,如情感分析和问答。

Google’s BERT

相当多的专家声称BERT的发布标志着NLP的新时代。继ULMFiT和ELMo之后,BERT凭借其性能真正击败了竞争对手。正如原论文所述,“BERT在概念上简单,同时有具备强大的经验”。

BERT在11个(是的,11个!)NLP任务中获得了最优结果。 来看一下在SQuAD基准测试中他们的结果:

SQuAD v1.1排行榜(2018年10月8日)Test EMTest F11st Place

Ensemble – BERT87.493.22nd Place Ensemble – nlnet86.091.71st Place Single Model – BERT85.191.82nd Place Single Model – nlnet83.590.1

有兴趣入门吗? 您可以使用PyTorch实现,或使用Google自己的TensorFlow代码尝试在您自己的计算机上复现。

我很确定你想知道BERT在这一点上代表什么。它是Transformer的双向编码器表示。

Facebook的PyText

Facebook怎么可能退出竞争呢?他们开源了他们自己的深度学习NLP框架PyText。 它于12月23日这一周发布,所以我还在试用它,但从目前早期的评论看是非常有希望的。根据Facebook发表的研究,PyText使会话模型的准确性提高了10%,并缩短了训练时间。

PyText实际上落后于Facebook其他一些产品,如FBMessenger。 因此,研究它来为您自己的投资增加一些现实世界的价值(除了您将获得的宝贵知识)。

您可以通过从此GitHub下载代码来自行尝试(原文有链接)。

Google Duplex

如果你还没有听说过Google Duplex,你都干嘛去了?!Sundar Pichai用一个demo十分精彩的展示了它,从那以后它一直是头条新闻:

由于这是Google的产品,因此他们很有可能开源背后的代码。它是展出时可用的一个相当棒的音频处理应用程序。当然,它引发了许多道德和隐私问题,但这是本文后面要讨论的。就目前而言,我们只要陶醉于近年来我们与机器学习的关系就可以了。

2019年NLP的趋势

谁还能比Sebastian Ruder本人提出NLP 2019年更好的发展方向?以下是他的想法:

  • 预训练的语言模型嵌入将无处不在,最先进的模型不使用它们是几乎不可能的
  • 我们将看到可以编码专门信息的预训练,这些信息是对语言模型嵌入的补充。我们将能够根据任务的要求组合不同类型的预训练
  • 我们将看到多语言应用程序和跨语言模型上的更多工作。特别是在跨语言词嵌入的基础上,我们将看到深度预训练跨语言表示的出现。

计算机视觉

这是现在深度学习中最受欢迎的领域。我觉得我们已经在很大程度上获得了计算机视觉低处的果实,并且已经在某种程度上到达了精炼阶段。无论是图像还是视频,我们都看到了大量的框架和库,这使得计算机视觉任务变得轻而易举。

我们今年在Analytics Vidhya花了很多时间研究这些概念的平民化。可以看看我们的计算机视觉特定文章(原文有链接),涵盖从视频与图像中的对象检测到预训练模型列表等主题,帮助您开始深度学习之旅。

如果您对这个美妙的领域感到好奇(实际上它很快将成为业内最热门的工作之一),那么请继续学习我们的“使用深度学习的计算机视觉”课程开始您的旅程。

BigGANs 的发布

Ian Goodfellow在2014年设计了GANs,这个概念催生了多种多样的应用程序。年复一年,我们看到原始概念正在调整以适应实际用例。但直到今年,有一件事情仍然相当一致:机器生成的图像相当容易被认出。在框架中总会存在一些不一致,这使得区别非常明显。

但最近几个月,这个区别已开始模糊。随着BigGANs的创建,这种区别可以永久消除。以下是使用此方法生成的图像:

除非你拿显微镜看,否则你将无法判断这些图是否有问题。担心还是兴奋?我会把这个问题留给你,但毫无疑问GANs正在改变我们对数字图像(和视频)的感知方式。

对于这方面的数据科学家来说,这些模型首先在ImageNet数据集上进行训练,接下来JFT-300M数据集可以展示模型的良好迁移。我还要引导您进入GANs页面 – 一种可视化和理解GAN的非常酷的方式。

Fast.ai的模型在ImageNet上训练仅用18分钟

这是一个非常酷的进展。人们普遍认为,需要大量数据以及很重的计算资源才能执行合适的深度学习任务。这包括在ImageNet数据集上从头开始训练模型。我理解这种看法—我们大多数人都认为如此,直到Fast.ai的出现证明我们都错了。

他们的模型在令人惊讶的18分钟时间内,得到了93%的准确率。他们在博客中详细介绍了使用的硬件–16个公有AWS云实例,每个实例都有8个NVIDIA V100 GPU。他们使用fastai和PyTorch库构建了算法。

所有加在一起的总成本仅为40美元!Jeremy在这里更详细地描述了他们的方法,包括技术。

NVIDIA的vid2vid技术

在过去的4-5年里,图像处理已经实现了跨越式发展,但视频呢?事实证明,从静态框架转换为动态框架的方法比大多数人想象的要困难一些。 你能拍摄视频序列并预测下一帧会发生什么吗?这些问题之前已被探索过,但已发表的研究充其量还是模糊不清。

NVIDIA在今年早些时候决定开源他们的方法,并得到了广泛的赞誉。他们vid2vid方法的目标是从给定的输入视频学习映射函数,以产生输出视频,这个输出视频以令人难以置信的精度描绘了输入视频的内容。

您可以在GitHub上找到他们的PyTorch实现。

2019年计算机视觉趋势预测

就像我之前提到的那样,我们可能会在2019年看到改动而不是创新。尤其在这些领域–自动驾驶汽车,面部识别算法,虚拟现实等。欢迎提出不同意见—我很想知道明年会诞生什么目前还没有的东西。

无人机目前还在等待政府和政策的批准,最终可能在美国获得批准(印度要远远落后)。就个人而言,我希望看到很多研究在实际场景中实施。像CVPR和ICML这样的会议描绘了这个领域的最新成果,但这些项目有多接近现实中的使用呢?

视觉问答和视觉对话系统可能很快迎来期待已久的首次亮相。这些系统缺乏概括的能力,但我们期望可以很快看到一种综合的多模式方法。

自我监督学习今年来到了一线。我可以打赌明年它将用于更多的研究。这是一个非常酷的学习线–标签直接由我们输入的数据确定,而不是浪费时间手动标记图像。

咨询专栏丨四大步骤手把手教你做数据驱动的精准营销

随着大数据时代的到来,越来越多的行业都在大数据领域逐渐摸索到适合自己的运营与传播方式,金融行业也在逐步调整自身的营销战略。传统的粗放式营销模式缺乏场景化和针对性,不仅浪费成本,也会增加对用户的打扰。尤其信用卡客户,不当的营销策略甚至会引起客户反感。针对业务和活动信息,投其所好的精准营销,才能受到用户的青睐。

精准营销的核心方法是对数据的分析洞察。通过数据收集、数据分析,精准定位目标用户群、在哪里、做过什么、想要什么。对客户有了全方位的了解之后,才能制定差异化、个性化的营销手段。

通过精准营销,可以提升获客质量。基于各个环节的效果分析,反向指导用户筛选、模型优化、预算分配、资源采购、活动设计、渠道使用、触点优化等。在有限资源的情况下,可实现最大化客户转化,主动避开粗放式营销带来的羊毛党客户群。通过精准营销,还可以提升用户的活跃留存,提升业务转化和提高营收,促进产品功能的迭代优化,实现用户生命周期价值的最大化。

如何寻找用户:收集数据-搭建用户全维度指标体系-用户分层-用户分群-用户行为预测模型

如何执行营销:精准客群-适宜渠道-恰当时机-差异化内容-合适形式

如何评估效果:目标导向评估效果-超链接添加UTM参数

如何打造闭环:营销效果分析-指导下一轮精准营销

一、寻找用户

在进行用户分群之前,首先要进行数据收集、数据整合、建立用户数据指标体系,常见呈现形式是搭建用户层级宽表。这一环节,在数据存储环境支持的情况下需要丰富底层数据,因后面的应用场景都需要依托于上述数据进行计算、分析、建模。所以在搭建用户层级宽表时需要考虑更全面,也需要在应用的过程中不断进行丰富和迭代。

根据前述底层数据,集成了一份庞大的用户层级宽表。进而,我们需要把用户标签更为具象化,进行用户分群,为精准营销提供客群筛选。可以通过以下三个步骤进行用户分群:用户分层、用户分群、用户价值分群模型。

1、用户分层

分层维度没有统一标准,可以按照 App 产品用户旅程 AARRR 为分层逻辑,也可以按照信用卡办卡、分期等核心业务流程为分层逻辑。如下图示例:

举例:在信用卡 App 营销过程中,基于信用卡用户生命周期的分层,可对应营销的内容。

2、用户分群

用户分群是精细化运营的核心,它是基于用户分层的基础上,从每一层级用户的横向再细分,筛选出共性用户群体。

通常根据以下几类数据再进行细分:

  • 一方数据 – 企业内部数据、用户行为数据;
  • 二方数据 – 广告投放数据;
  • 三方数据 – 行业数据、第三方标签、POI 数据、黑白名单等。

在信用卡行业实际运营过程中,一方数据易获取且准确度、关联度高,使用率较高。最常使用的数据有:人口属性、积分数据、客服数据、App 行为数据、营销响应数据等。App 用户行为数据也有很大价值,分析用户的行为数据,帮助设计和完善 App 产品;分析用户的潜在行为数据,帮助建立模型挖掘,找到营销方向。

信用卡 App 行为数据,主要关注是否绑卡、是否使用激活、积分兑换,实现其自助渠道缓解人工渠道服务压力的价值。以及用户在 App 上是否进行了消费、分期、申卡等对信用卡主要指标贡献度较高的操作。App 行为数据的核心维度分别是时间、频次、结果:

  • 时间指某特定行为发生时间及持续时间,
  • 频次指发生某特定行为的次数和趋势,
  • 结果是指是否完成体验或交易。不同客群会呈现不一样的特征,可基于业务需求和行为数据统计分析,进行场景化行为数据标签的搭建。

在一方标签数据建立不完善的情况下,为了在营销过程中为进一步提高精准度和营销效果,通常会引入三方数据进行补充。例如,在营销资源与用户进行匹配的环节,为了确认用户偏好,可引入三方的标签数据,针对不同群体分别匹配不同奖励的营销资源。以及,当涉及到适用商户的电子券,在营销过程中可引入三方的 POI 数据,匹配更精准的用户群。

基于以上多方数据,结合常见业务和活动,在用户分层的基础上,运用机器学习聚类模型、RFM模型等对信用卡存量客户画像进行多维度分析,如拆分为:分期、跨境、积分、优惠券、还款、额度等多类客群,便于营销资源调配及客群精准营销。

3、用户行为预测模型

充分利用前期精准营销结果数据、活动参与数据、用户行为数据等,以此为种子,结合用户标签,借助有监督机器学习与深度学习算法预测用户行为,建立 A/B test 对比传统营销方式与机器学习预测效果,并根据实验结果不断迭代优化模型,提高客群精准度及精准营销响应率。

举例:某商业银行用户十一假期后分期预测模型。

二、执行精准营销

经过上一轮的客群分析之后,筛选出精准客群,为执行营销奠定了基础。再进一步选择推送渠道,在适当的时机,将合适的内容推送出去。下图是营销流程的简单示例:

在信用卡 App 营销过程中,营销资源不仅指奖励利益,App 功能也可作为营销抓手。在这个过程中,同一特征客群,可能感兴趣的资源有多个;而同一营销内容,也可能有多组不同特征客群感兴趣。不同客群与不同营销内容之间,可进行交叉营销。

以跨境消费客群为例,可营销的内容有:跨境消费返现、跨境消费送积分、积分兑换送里程、贵宾出行专区体验等。而以跨境消费送积分活动为例,可营销的客群有:跨境消费客群、商旅卡客群、积分兑换客群等。

在执行营销之前,可结合信用卡营销资源规划表、App 功能上线规划表、时事热点、公关日历表等,做年度、月度营销的精准营销计划表。

值得一提的是,A/B 测试是执行精准营销过程中的常用策略。不管是客群、资源、渠道、发送时机,除了基于业务经验和数据分析出的规律以外,还可以通过 A/B 测试进行验证。经过几轮验证之后,探索出最合适的组合方式,多次验证结果均理想的情况下,便可设置为自动化的常态化营销模式。

例如:针对跨行还款功能,数据研究结果显示是还款日前几天 App 注册率高。为进一步验证和确切条件,其他筛选条件一致且样本量控制一致的情况下,进行距离还款日不同天数的发送,结果是还款日前5天响应率最高。针对该结果,可再多做几轮测试,如结果仍能够不断得到验证,则该结果成立,可设定自动化短信,长期触达。

三、评估营销效果

1、目标导向的归因分析

每次进行精准营销,都有个业务目标。因此,分析营销效果需基于不同的目标导向。若目标是促注册 App,那就需要明确注册客户来源及精准营销带动注册客户的比例。目标是促 App 分期业务办理,那就需要明确营销及响应周期内营销带动与非营销带动的比例。

举例,在促信用卡 App 注册的精准营销过程中,在数据收集不完善的时候,可进行基础维度的监测数据:安排发送量-注册量-绑卡量-参与活动或办理业务量。

可进行全流程维度的监测数据有:安排发送量-成功发送量-短链访问量-应用商店访问量-安装量-注册量-绑卡量-参与活动或办理业务量。

全流程各个环节的数据监控更精准,前提是需完成埋点和数据收集。这期间,整条路径用户信息数据的打通是个关键工作。通过移动广告效果监测平台 Ad Tracking,基于终端信息、环境信息生成点击数据、激活时设备数据,即可实现应用安装前后用户信息匹配。

监控周期可设定为7或14天,不同营销活动的各个批次之间采用统一口径即可对比营销效果。依据经验,通常注册响应率不到1%的营销活动,需要再反向从营销资源、渠道、客群、时机、触点进行调优。

2、渠道效果监控

精准营销附加的超链接,可添加 UTM 参数,通过埋点追踪 UTM 访问数据。UTM 常用的参数有:渠道、媒介、名称、内容、关键字。

通过这5个可添加到链接中的参数,即可通过细分层级,明确用户是从哪一个渠道、媒介(微信/短信/EDM等)、名称、内容、关键字过来的。通过不同渠道的访问-下载-注册-参与/付费数据,可分析不同渠道的质量。通过名称、内容、关键字,可分析出客户对哪类活动感兴趣,这部分数据也是用户标签数据的重要来源之一。

下图为基础的渠道监控表:

四、搭建营销闭环

在精准营销过程中,从最初的筛选精准客群,到选择适宜渠道、恰当时机、差异化内容、合适形式进行投放,再到最后的营销效果监测,数据分析是贯穿始终的基础工作。

精准营销需实现如上图所示的营销闭环。对精准营销效果进行复盘分析,可指导下一轮的精准营销。这对客群标签沉淀、客群模型调优、营销方案迭代、App产品迭代优化、渠道拓展及触点优化、发送时机选择、标准的自动化营销体系的逐步建设,都起着至关重要的作用。

翻译 | 数据科学中各岗位的技能点应该怎么点?

本文是TalkingData University翻译自George Liu发表在towardsdatascience的一篇文章。

在之前的文章中,George给出了不同角色数据人才能力画像,本文他将通过分析Indeed网站的招聘信息进一步分析得到的结果。

如果你是数据科学方面的求职者,那么肯定希望在简历当中添加某些技能或者特别的东西,让 HR 的眼前一亮,如果您想进入这个领域,您可能想破脑袋想知道学习哪些技能才能成为更有吸引力的候选人。

来吧,我有你想要的答案。

首先,我们来看看不同岗位的技能要求。

R 与 Python 之争已经结束,Python 现在是主导者

曾经有人争论过到底Python和R谁才是数据科学的首选语言。显然,市场需求告诉我们 Python 现在是领导者。同样值得注意的是,R 甚至比 SAS 更少提到。因此,如果您正在考虑进入数据科学领域,请考虑将您的学习重点放在 Python 上。 SQL 作为数据库的语言(也可能是数据!),是数据科学家第二重要的语言。由于数据科学家职业的广泛性,其他语言也扮演着重要角色。

总结:数据科学家的主要语言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。

机器学习工程师所需的语言更加多样化

作为机器学习的实际语言,Python 当选机器学习工程师的首选语言并不令人惊讶。而从头开始实现算法,并在大数据环境中部署 ML 模型,使得 C ++ 和 Scala等相关语言也很重要。总的来说,与其他两个角色相比,机器学习工程师对编程语言的需求似乎更加分散。

总结:机器学习工程师的主要语言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。

如果你想成为一名数据工程师,SQL绝对是必备的

数据工程师始终在处理数据库,SQL是数据库语言,所以毫无疑问,SQL是首选语言。 Python很重要,但还是败给了Scala和Java,因为这些语言可以帮助数据工程师处理大数据。

总结:数据工程师的主要语言是:SQL,Scala,Java,Python和Lua。

Scala是数据科学中第二重要的语言(而不是R)

当我们查看不同的角色的语言首选时发现了有趣的事,Scala始终处于第二位或第三位。 所以我们可以说数据科学中的排名前三的语言是 Python,SQL 和 Scala。 如果您正在考虑学习一门新语言,请考虑使用Scala!

对除数据工程师之外的角色,Spark 是首选大数据技能

仅对于数据工程师而言,需要 Hadoop 的比 Spark 更多,但总的来说,Spark 绝对是首先应该学习的大数据框架。 Cassandra 对工程师而言比科学家更重要,而 Storm 似乎只与数据工程师有关。

总结:数据科学的首选大数据技术是:Spark,Hadoop,Kafka,Hive。

TensorFlow 是深度学习的王者

数据工程师职位发布中几乎没有提到深度学习框架,因此该角色似乎不需要这项技能。 提及DL框架最多的是机器学习工程师,表明ML工程师确实大量处理机器学习建模,而不仅仅是模型部署。

此外,TensorFlow 在深度学习领域绝对占据主导地位。尽管 Keras 作为高级深度学习框架在数据科学家中非常受欢迎,但它几乎与机器学习工程师角色无关,说明可能ML从业者大多使用较低级别的框架,如 TensorFlow。

总结:数据科学中最重要的深度学习框架是:TensorFlow,Torch,Caffee和MXNet。

AWS 广泛主导

计算机视觉是机器学习最大的需求来源

对于一般的数据科学家来说,自然语言处理是机器学习最大的应用领域,其次是计算机视觉,语音识别,欺诈检测和推荐系统。有趣的是,对于机器学习工程师来说,需求最大的是计算机视觉,而第二名自然语言处理远在后面。另一方面,数据工程师再次成为聚焦专家–这些ML应用领域中没有一个与他们相关。

洞察力 – 如果您想成为数据科学家,您可以根据想要进入的领域构建各种类型的项目,以展示您的专业知识,但对于机器学习工程师来说,计算机视觉是最佳选择!

对可视化来说,Tableau 是必须的

可视化工具主要为数据科学家所需,很少在数据工程师和机器学习工程师的职位中提到。但是,Tableau 是所有角色的首选。对于数据科学家来说,Shiny,Matplotlib,ggplot和Seaborn似乎同样重要。

Git 对每个人都很重要,而Docker仅有工程师需要

接下来,我们使用词云来探索每个角色最常用的关键词,并结合相应的技能为所有数据科学角色构建理想的画像!

数据科学家更多的与机器学习相关,而不是业务或分析

Data Scientist一直被视为需要统计,分析,机器学习和商业知识的全方位知识。 似乎确实如此,或者至少,数据科学家仍被广泛需要。 然而,现在看来,数据科学家们更多与机器学习相关,而不是其他任何事务。

其他主要要求包括:业务,管理,通信,研究,开发,分析,产品,技术,统计,算法,模型,客户/客户和计算机科学。

机器学习工程师是关于研究,系统设计和构建

与一般的数据科学家相比,机器学习工程师肯定似乎有一个更聚焦的技术栈,包括研究,设计和工程。显然,解决方案,产品,软件和系统是主要的。与此同时,有研究,算法,ai,深度学习和计算机视觉。有趣的是,商业,管理,客户和沟通等术语似乎也很重要。这可以在本项目的迭代中进一步研究。另一方面,数据管道和平台也脱颖而出,证实了机器学习工程师在构建数据管道以部署ML系统的责任。

数据工程师是真正的“专”家

与机器学习工程师相比,数据工程师拥有更加聚焦的技术栈。显然他们聚焦的是通过设计和开发管道来支持产品,系统和解决方案。首要要求包括技术技能,数据库,构建,测试,环境和质量。机器学习也很重要,可能是因为管道主要用于支持ML模型部署数据需求。

好了!我希望这个项目可以帮助您了解雇主正在寻找什么样的人,最重要的是帮助您做出如何定制简历和学习哪些技术的明智决策!

咨询专栏丨使用现金贷的都是哪些人?他们有什么特征?

2017年年底《关于规范整顿“现金贷”业务的通知》等一系列监管文件的出台,对现金贷业务模式做出了严格的规定,并且确定综合年化利率不得超过36%。虽然监管在思路上对现金贷的存在给予了一定的肯定,但是在监管政策上,又变得更加严厉。

在如此严格的监管情况下,根据 TalkingData 统计,2018年现金贷人群的借款类 App 月均使用频次为15.4次,月均使用时长为14.8分钟,低于银行信用卡类 App 的平均使用情况。所以,强监管、低频次、产品期限短、额度小等特点要求现金贷企业低成本高流量的有效获客才能更好的盈利。因此,了解现金贷人群画像,洞察现金贷人群的特征,对企业有效获客至关重要。

本报告抽样选取近三个月在典型现金贷App(例如:宜人贷借款、拍拍贷借款、闪电贷等)上活跃过的人群作为分析对象,将近三个月的普通移动互联网用户作为对照组进行对比分析。

总体上,现金贷人群主要来自二三线城市,且男性居多。一线城市现金贷人群多来自二三线,且流动性大。日常生活中偏好网购、娱乐至上。虽然消费能力一般,但消费需求较高。餐饮、生活服务以及休闲娱乐为现金贷人群的主要消费场景。

一、现金贷人群基本画像

1、现金贷人群的年龄结构整体偏年轻,且男性居多

约58%的现金贷人群集中在26至35岁,35岁以下人群占比81%,现金贷人群年龄整体偏年轻,且男性占比更多。

2、主要分布在广东、江苏、浙江等沿海地区,且二三线城市居多

现金贷人群主要分布在广东、江苏、浙江等沿海地区,人群多集中在二三线城市。二线城市占比约为26%,主要分布在重庆、成都、天津、西安等城市。而三线城市现金贷人群占比约为65%,例如东莞、泉州、佛山等。

3、多使用OPPO、vivo、小米等高性价比机型,移动和电信更有市场优势

现金贷人群整体消费能力一般,超过一半的现金贷人群手机价位在2000至3999元的区间,接近40%的现金贷人群手机价格低于2000元,且OPPO、vivo、小米等高性价比机型占比较大。对比三大运营商的市场份额,中国移动依然拥有最大的客户基础,而中国电信在现金贷人群中较受欢迎。

4、餐饮、生活服务以及休闲娱乐为现金贷人群的主要消费场景,高性价比的大众品牌更受欢迎

现金贷人群的日常消费需求高于移动互联网用户,尤其是餐饮、生活服务以及休闲娱乐等消费场景。现金贷人群的消费习惯也符合大众消费习惯,具体的消费品类集中在食品烟酒、零售卖场、生活用品和服务。而对健康生活的追求和精神文化的享受也渐渐成为人们新的主流消费诉求。

二、现金贷人群深入洞察

1、偏好网购、娱乐至上和经常出行是现金贷人群的主要特征

现金贷人群整体偏年轻,对移动互联网较为依赖。偏好网购、娱乐至上,出行需求也相对较高是主要特征。相比于普通的移动互联网用户,现金贷人群更喜欢影音娱乐和网络购物类App,人均多使用1.3个影音类App和0.6个网购类App。

2、现金贷人群对价格更敏感,网络购物重视搜寻信息和比价

相比于大多数移动互联网网民,现金贷人群对价格更敏感,重视搜寻商品信息和价格对比。网购更偏好网上商城、团购和比价类应用。现金贷人群TOP10覆盖率的网购应用中,淘宝、美团最受欢迎,覆盖率达到了50%以上,但拼多多、京东的用户活跃率更高。值得注意的是,现金贷人群也有一定的二手交易需求,如闲鱼和转转等二手交易平台,用户覆盖率略低但用户活跃率较高。

3、现金贷人群经常使用音乐、直播和短视频等移动App,而线下更常去网吧、足浴、茶馆等休闲娱乐场所

影音类娱乐内容例如听音乐、看直播、刷短视频已成为现金贷人群在空闲时间主要的消遣方式。爱奇艺、腾讯视频、抖音短视频、火山直播等平台颇受欢迎。咖啡厅、网吧、KTV则是现金贷人群主要的线下休闲娱乐场所。通过和移动互联网用户的对比发现,网吧、茶馆、足浴等消费场所现金贷人群的TGI指数更高。

4、现金贷人群有明显的游戏偏好,手游的安装和打开频次高于平均水平

现金贷人群比普通网民有更明显的游戏偏好,除了线下经常去网吧,约78%的现金贷人群有安装过游戏应用,其中36%的现金贷人群安装过3款以上手机游戏,并且超30%的人连续7天有游戏行为。手机游戏的安装和打开频次均高于普通移动互联网用户。

5、一线城市现金贷人群,主要来自二三线城市,且流动性高

现金贷人群的城市迁移度较高导致出行需求相应较高。广州、北京、深圳、上海等一线城市现金贷人群流动率高于80%,其中广州和深圳的现金贷人群多来自其周边的二三线城市,而北京和上海的现金贷人群来源则更加分散。

6、现金贷人群,对新闻资讯较为敏感

至少68%的现金贷人群均有安装新闻资讯类App,且受政策新规和负面新闻影响较大。从2017年12月发布《关于规范整顿“现金贷”业务的通知》之后,现金贷类App月均活跃率持续下跌,至2018年2月才逐步回升。同时,科技、娱乐、财经类资讯也是现金贷人群日常比较关注的领域。

三、银行系和互联网系现金贷客群对比

目前市场上主要有五大类现金贷主体,分别是商业银行、消费金融公司、互联网巨头、助贷服务方以及P2P公司。根据其业务模式、用户来源、产品类别、资金成本等特征可以将他们划分为银行系和互联网系两大类。银行系现金贷主体对风险容忍程度较低,采用传统征信模式,且资金成本较低。而互联网系现金贷主体对风险容忍程度高,多采用线上多数据风控,且资金成本较高。不同类别的现金贷主体可能存在对现金贷人群的逆向选择,进而导致人群特征产生差异。

经过两类现金贷人群的对比分析发现,银行系现金贷人群中有车一族更多,且消费能力更强。但总体来说,二者行为偏好差别不大,一方面说明两种类别的客群重复度较高,另一方面说明部分用户可能存在多头借贷的现象。

四、获客建议和策略

企业通过大数据了解目标客群的用户画像,洞察用户的媒介偏好(尤其是移动端App偏好),就能挑选合适的媒介渠道进行广告投放,降低成本,提升获客效果。根据艾瑞咨询的相关报告,基于用户画像的广告投放渠道筛选有三大原则:

差异化选择:

选择TGI较高的App,即在目标人群中安装率、使用率很高,但在普通人群中较低,在此类App上投放针对目标客户的广告可能会有较高的性价比。

垂直媒介筛选:

一般来说,头部App(微信、淘宝、QQ等)安装率和活跃率都较高,属于优质广告位,但成本也较高。安装率较高,但活跃率不高的App,一般偏工具属性,用户用完即走,转化率不会太高。安装率不高,但活跃率较高的App,一般属于垂直领域,用户群相对小一些,但更加聚焦,选择人群相关度较高的垂直领域,预计会收到比较好的效果。

潜力型媒介筛选:

可以从目标群体偏好的App列表中,筛选近三个月时间增长较快的腰部App。此类App当前体量较小,广告投放费用尚低,如果提前以较低的价格签订一段时间的广告合约,可能会在未来收到超出当前预期的收获。

根据TalkingData的应用统计数据发现,针对现金贷客群来说,覆盖率和活跃率更高的安卓应用分发市场第一梯队是OPPO软件商店和腾讯应用宝。其次是360手机助手、百度手机助手、vivo应用商店和PP助手。

现金贷客群在网络购物、影音娱乐、出行服务等方面TGI较高,因此更有效的差异化媒介为:手机淘宝、爱奇艺、腾讯视频、高德地图。用户覆盖率不高但相对活跃的垂直媒介有:OPPO音乐、58同城、王者荣耀、京东金融和汽车之家。根据TalkingData数据中心计算推荐,更符合现金贷用户特征的广告投放渠道为:新数DSP、BiddingX、品友互动和今日头条。

TalkingData通过对现金贷用户群体的深度洞察,从第三方数据智能服务商的角度客观的展示了现金贷人群的基本特征和行为偏好。希望报告中所提及的用户群体的地域分布、人群画像、消费偏好和行为习惯,能帮助企业更好的了解现金贷客户的特征,通过精准的获客渠道选择以及媒介合作策略,降低获客成本,提高获客效率。

注:本文章中出现的第三方商标及图标,仅为替代文字表达用以辅助说明本报告的内容,而非商标性使用,商标权归原权利人所有。

凛冬将至?不,是个性化新消费时代的来临

近日,TalkingData 副总裁高铎在“2018实现可持续发展目标中国企业峰会”上发布了主题为《新消费时代开启,消费升级显活力》的行业报告,并从新消费在国内的兴起、新消费的国民理念以及新消费在生活各领域的表现这三大方面,分享了对新消费的最新行业洞察与观点。

一、新消费在国内的兴起

1、新消费兴起的前提和核心

从改革开放基本国策确定和实行以来,我国开始全面深化改革,不断释放发展动力,经济社会发生了翻天覆地的变化,居民消费结构得以不断改善、升级,以消费者为核心,满足其美好生活需求的个性化升级的新消费时代正在来临。

现在所谓的消费降级概念其实是由于以一二线城市的角度看待问题,而对于五六线城市和乡镇的消费者来说,现在能够买到之前买不到的相应产品,体验的更多是消费升级。所以准确来说,应该是很多线上业务开始下沉,走向消费分级,或者说是“个性化消费升级”,以满足消费者愈加多样化的消费需求。

中国经济发展处于健康稳定态势,第三产业继续对经济增长发挥主导作用;同时,中国社会消费品零售总额保持平稳较快增长,国民消费活力吸引各行各业拓展商机。

而通过近30年的大力发展,充分调动与发挥了人在城镇化的主动性和创造性,促使中国城镇化率提升2.3倍、中国城镇居民人均可支配收入水平提升39.7倍,这两个大环境支撑了不同时代的消费升级。

消费结构、消费需求、消费理念、消费渠道是新消费以人为本的四大核心。新消费是一个持续发展演变的过程,在以消费者为基础的准则上,不断满足其需求,利用时代新技术或新模式重构“人-货-场”的关系,进而带动商品创造和服务升级,最终实现对消费结构、消费需求、消费理念和消费渠道的深刻变革。

2、居民需求层次升级,数字化提质增效

通过上图可以看到,虽然生活刚需仍占最大比例,但与前两年相比,医疗保健、教育、文化、娱乐、交通类的消费多了起来。

数字化技术加速落地,并广泛应用于生产、物流、售卖、展示等社会消费品产业链各个环节,打通各环节的信息流通,增加各个环节的协同效应,提升整个消费链条的效率和消费者的消费体验。正是技术的进步,支撑了前端消费场景的变化。

说到数字化,就不得不提移动智能终端的发展。截至2018第二季度,我国移动智能终端规模已经突破15亿台,移动互联网对人民生活充分渗透。根据TalkingData数据统计,国民在移动智能终端的日均活跃时长达3.5小时,日均打开19.8款移动应用。移动智能设备已在社会生活中占据重要位置,并改变了人们的生活方式。

也正是依托移动互联网、大数据和人工智能等新兴技术,传统企业开始转变发展理念,整合线上、线下渠道,丰富和利用数据资产,实现对消费者的精准触达和友好服务,线上线下深度融合的新型消费模式应运而生。

3、三大群体支撑新消费时代

新消费群体有三类:相比之下,70后与80后群体更注重品质;90后群体更追求个性、独立和新潮;同时也不应忽视更关注健康的60后消费群体,他们的占比达到了16%。

不同群体在消费渠道上也有着比较明显的不同,譬如很多90后通过“网红”来了解和购买商品,70后与80后倾向于通过电商平台购买,而60后很多都喜欢电视购物等。

因此,面对不同的消费群体,意味着品牌商的营销也要采用不一样的策略、不一样的渠道、不一样的触达方式。

二、新消费国民理念

城镇化率、居民收入、数字化技术落地和移动互联网飞速发展,推动着国民消费理念的逐步转变。如今,新消费理念可分为5大方向,分别是:

  • 追求品质化生活:在中国经济发展的新常态阶段下,人们的消费需求开始从模仿型排浪式消费向多样化理性消费转变,无论是刚需、非刚需,还是基础生活、品质生活,整个消费主体越来越重视对美好和品质生活的追求。
  • 追求互动体验:技术演进催生出日新月异的消费互动体验,例如VR、AR、无人驾驶/便利店、智能机器人、线下体验店等技术或商业形态,通过虚拟、跨界、人工智能化的体验等带来更为丰富、立体和享受的空间及氛围。
  • 追求个性化定制:由于受到审美喜好、教育文化、身份场合、生活习惯等影响,以及人们越来越注重个人价值和自我内涵的体现,潮牌、轻奢、设计师品牌、DIY、私人定制等开始满足了不同人群的个性化消费需求。
  • 追求便捷高效:便捷和高效是每个时代的一致追求,供给侧和需求侧同样需要便捷高效的有力支撑,高铁、共享单车、外卖、移动应用、手机支付、智能家居等的发展,创造了更加高效、便捷的消费和生活环境。
  • 追求绿色健康:绿色健康正在成为人们的一种生活方式,从低碳出行,到有机食品,再到运动健身,无不折射出人们的绿色环保、健康养生的生活志趣,亦将赋予此种生活方式以新的意义。

三、新消费在五大生活领域上的表现

国民生活,永远离不开衣、食、住、行、娱这五大领域,那么新消费在这五大生活领域中的表现如何?人们的消费理念有哪些转变和趋势呢?

衣:

通过上图可以看到,线上时尚品牌消费用户增长率和购买次数正不断增加。面对线上消费快速发展和居民对网购习惯养成,时尚品牌不仅巩固线下市场,而且拓展线上渠道,并通过触网洞悉市场潮流、把握消费者心理和商品需求。

食:

“互联网+”与餐饮业正在加速融合,形成对餐饮业各个方面全面渗透和拓展,目前四分之一的移动互联网用户使用餐饮类移动应用,近6成餐饮结帐方式来自移动支付,移动互联网发展红利导致餐饮业的线上拓客、用户服务以及商业运营等更加精准高效透明。

住:

近年商旅住宿业态不断创新,迎合用户家庭感、体验感、个性化以及主题特色等需求的住宿资源、平台和休闲旅游场所逐年增加。而租房市场主导因素不再是价格为王,用户开始综合考虑交通便利度、社区环境、周边配套以及房屋品质等细节,追求品质生活环境。

行:

出行领域与互联网的融合力度不断增加,各客运市场通过商业、技术创新提升运作效率、服务品质,探索行业发展新商机。社会经济发展推动了出行方式改善,移动化、智能化、共享化等则共同提升出行体验。

娱:

现今,消费者在物质生活方面已得到极大满足,开始更多关注精神方面多元需求,吸引了游戏、影视、传媒、互联网等企业通过核心IP内容拓展其在核心、优质、长尾等流量层的行业布局。

旅游市场方面,一方面定制游、品质游成为旅游消费新热点,另一方面旅游消费者越来越看重旅游的文化体验、精神熏陶。

四、总结

综上所述,中国居民消费结构正在加速改善、升级,整个社会开始进入以消费者为核心的消费升级时代,消费理念呈现品质生活、互动体验、个性定制、便捷高效和绿色健康,并反映在衣、食、行、住、娱等领域。

TalkingData 区域性金融智能营销研讨会在珠海举办

区域性金融企业正在面临着收入增长缓慢、运营成本压力增加的挑战。TalkingData 认为,区域性金融企业可以通过数字化运营和智能化营销建设,降低金融企业的运营成本,提升营销效率,增加业务收入,为客户提供便捷的金融服务。

近日,TalkingData 在珠海举办区域性金融智能营销研讨会,本次研讨会仅面向区域性金融行业客户。共计40多家区域性金融企业的客户参加了本次研讨会,参会人员覆盖区域性金融企业副总裁、网络金融部总经理、互联网金融总经理、电子银行总经理、数据分析和运营总经理、市场营销总经理等金融行业高级管理人员和运营人员。

会议上,金融行业的业务专家、研究学者以及 TalkingData 产品咨询团队,从数据的场景化应用、数据中台的建设思路、智能营销平台的商业价值、数字化运营成功案例等方面,深入探讨了经典案例和实战经验。

TalkingData合伙人兼执行副总裁林逸飞

长江证券、重庆银行的专家分别介绍了自身的数字化营销实践经验,以及他们如何在服务客户方面定位自己,如何走差异化发展之路,实现基于数据驱动的增长。中国银行协会行业发展研究委员会副主任、中国人民大学重阳金融研究院副院长董希淼,在演讲中介绍了中小银行零售业务的困境和对策。

他指出,在互联网流量巨头、金融科技公司、领先的股份制商业银行、大型国有银行的巨大资源投入面前,区域性金融机构需要了解如何利用金融科技代替大量人员投入和大量资本投入,实现高效率、低成本的业务发展。

TalkingData 合伙人兼执行副总裁林逸飞指出,在线上获客成本日益增加的情况下,企业需要盘活流量,提升流量变现能力,从数据中萃取商业价值。在未来两年,随着流量对企业和系统的要求越来越高,中台的优势将真正的发挥出来。具体来说,中台可以对接多种流量,帮助企业在营销闭环里将数据简单化,让各种工具在其上各司其职,真正的打通流量运营。此外,中台还可以帮助企业快速上线算法、模型,并通过客户的真实反应验证、训练模型,实现营销的自动化和快速化。

TalkingData 认为,中台不仅仅是一个平台、一个工具,而是一套正规而立体的想法。TalkingData 对数据中台的定义是基于数据智能应用探索商业价值的平台,它需要具有数据管理、数据工程和数据科学的能力。

此次会议为区域性金融机构提供了一个开放、分享的平台,区域性银行及证券企业的科技部门与网络金融部门的相关负责人出席了本次会议,并在下午的两个主题研讨会上进行了热烈的交流。

此次能够邀请到这么多区域性金融机构的企业代表参与研讨,TalkingData 作为主办方感到非常荣幸。TalkingData 将继续借助以数据智能平台 SmartDP(TalkingData 数据中台)为核心的数据智能应用生态为金融企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。