从问题了解Jetty类加载机制

1、问题导出

由于机器的原因,将服务从一台机器迁移到另外的机器上,在迁移后,接受邮件请求,并将其发送出去的邮件基础服务 messages 不可使用了。现象就是服务仍旧可以接受请求,但不能异步的将邮件正常的发送出去,并报有以下错误。

image.png

针对以上错误,经过分析并查找原因,最终确定为是由于迁移后的jetty容器使用的是容器自带的 javax.mail.glassfish-1.4.1.v201005082020.jar,Jetty 容器优先加载容器中 lib 下的 javax.mail.internet. MimeMessage,而该类下,没有相应的方法,并且 WEB-INF/lib 下的 jar 包中类不能覆盖容器下 jar 包的类。

2、问题分析

image.png

那么有相应的方法,为什么还会报这样的错误:java.lang.NoSuchMethodError: javax.mail.internet.MimeMessage.setFrom(Ljava/lang/String;)V?最终怀疑是容器的问题,于是查看了所使用的 jetty 容器。

当前版本使用的 jetty 容器,比原来版本容器的 lib 下多个 jar 包:javax.mail.glassfish-1.4.1.v201005082020.jar,将该 jar 包下载下来,发现该包里面包含有相同的类,如下图所示:

image.png

MimeMessage 类,也确实有 setFrom 方法,但是没有参数是 String 的 setFrom 方法。

image.png

这说明 jetty 容器优先使用了容器中 lib 下的 jar,而非 WEB-INF/lib下的 jar,那么为什么优先使用 jetty 容器中 lib 下的 jar 包,而非 WEB-INF/lib 下的 jar 呢?

3、Jetty中lib下jar先于WEB-INF/lib下的jar加载

Jetty,Tomcat 等 web 容器通常都会对 ClassLoader 做扩展,因为一个正常的容器至少要保证其内部运行的多个 webapp 之间:私有的类库不受影响,并且公有的类库可以共享。这正好发挥 ClassLoader 的层级划分优势。Jetty 中有一个 org.eclipse.jetty.webapp.WebAppClassLoader,负责加载一个 webapp context 中的应用类,WebAppClassLoader 以系统类加载器作为 parent,用于加载系统类。不过servlet 规范使得 web 容器的 ClassLoader 比正常的 ClassLoader 委托模型稍稍复杂。下面我们先看一下关于 servlet 容器的 JSR 规范。

JSR 规范

Jetty 是 servlet 容器,这里查了一下 JSR315 servlet 3 中对 web application class loader 的要求:

Web Application Class Loader:

The class loader that a container uses to load a servlet in a WAR must allow the developer to load any resources contained in library JARs within the WAR following normal Java SE semantics using getResource. As described in the Java EE license agreement, servlet containers that are not part of a Java EE product should not allow the application to override Java SE platform classes, such as those in the java.* and javax.* namespaces.

不允许应用去覆盖 JAVA SE 的系统类

That Java SE does not allow to be modified. The container should not allow applications to override or access the container’s implementation classes.

不允许应用覆盖或存取容器的实现类

It is recommended also that the application class loader be implemented so that classes and resources packaged within the WAR are loaded in preference to classes and resources residing in container-wide library JARs. An implementation MUST also guarantee that for every web application deployed in a container, a call to Thread.currentThread.getContextClassLoader() MUST return a ClassLoader instance that implements the contract specified in this section.

每个应用调用 getContextClassLoader()返回的都应该是实现了本规范中定义的 class loader。

Furthermore, the ClassLoader instance MUST be a separate instance for each deployed web application.

每个应用的 class loader 必须要是独立的实例。

The container is required to set the thread context ClassLoader as described above before making any callbacks (including listener callbacks) into the web application, and set it back to the original ClassLoader, once the callback returns.

源码阅读

通过对 JSR 规范的理解,下面我们来阅读一下 Jetty 容器的代码实现,了解一下关于 JSR 规范的部分实现:

1、  系统类

Jetty 中以类的 package 路径名来区分,当类的 package 路径名位包含于以下路径时,会被认为是系统类。WebAppContext 中配置如下:

image.png

因此,我们可以通过 org.eclipse.jetty.webapp.WebAppContext.setSystemClasses(String Array) 或者 org.eclipse.jetty.webapp.WebAppContext.addSystemClass(String) 来设置系统类。 系统类是对多应用都可见。

2、  Server类

Server 类不对任何应用可见,Jetty 同样是用 package 路径名来区分哪些是 Server 类。WebAppContext 中配置如下:

image.png

我们可以通过, org.eclipse.jetty.webapp.WebAppContext.setServerClasses(String Array) 或 org.eclipse.jetty.webapp.WebAppContext.addServerClass(String) 方法设置 Server 类。 注意,Server 类是对所有应用都不可见的,但是 WEB-INF/lib 下的类可以替换 Server 类。

3、自定义 WebApp ClassLoader

当默认的 WebAppClassLoader 不能满足需求时,可以自定义 WebApp ClassLoader,不过 Jetty 建议自定义的 ClassLoader 要扩展于默认的 WebAppClassLoader 实现。这里我们来看一下 WebAppClassLoader:

WebAppClassLoader的构造器:

image.png

WebAppClassLoader 还是按照正常的范式设置 parent ClassLoader,如果当前线程上下文中设定了 ClassLoader 就以当前线程上下文类加载器为父 ClassLoader,否则使用 WebAppClassLoader 的加载器,如果还没有,就采用系统类加载器。详细的加载过程请看 WebAppClassLoader的loadClass() 方法:

image.png

通过阅读源码,我们了解到,当在容器中启动一个服务的时候,容器的 jar 包和 class 文件加载顺序是:

  1. 优先加载 JDK 和 JRE 所需的 jar 包和 class 文件
  2. 加载容器所需的 jar 包和 class 文件
  3. 加载项目路径 /WEB-INF/class 下的文件
  4. 加载项目路径 /WEB-INF/lib 下的 jar 文件

注意:同一个文件夹下,jar包是按顺序从上到下依次加载

这里列举了启动一个 tomcat 服务的时候,jar 包和 class 文件的加载顺序:

  1. $java_home/lib 目录下的 java 核心 api
  2. $java_home/lib/ext 目录下的 java 扩展 jar 包
  3. java -classpath/-Djava.class.path 所指的目录下的类与 jar 包
  4. $CATALINA_HOME/common 目录下按照文件夹的顺序从上往下依次加载
  5. $CATALINA_HOME/server 目录下按照文件夹的顺序从上往下依次加载
  6. $CATALINA_BASE/shared 目录下按照文件夹的顺序从上往下依次加载
  7. 我们的项目路径 /WEB-INF/classes 下的 class 文件
  8. 我们的项目路径 /WEB-INF/lib下的 jar 文件

4总结

通过以上分析,对于该问题的最终的解释就是:jetty 容器中 lib 下的 jar 包先于 WEB-INF中lib 下 jar 包加载,而且 WEB-INF/lib下的 jar包中类不能覆盖容器下 jar 包的类。

献给对“弊”圈一无所知的你

口气略大,萌喵镇楼~~

对广告监测无所不知的精英男女们,一起看个热闹、巩固下知识点。

初入移动广告行业的广告主们,get本文你将获得行业生存的新型能力。

移动广告作弊圈(简称弊圈)的4种作弊技术:模拟器劫持刷机墙真人群刷,因受到大量作弊者粉丝喜爱,被称为弊圈“四大天王”。虽然就败坏的道德而言,彼此平等。但就作弊技术而言,千差万别、各有千秋。也因此,弊圈的“四大天王”,存在着一条“我看你的作弊技术很Low”相互diss的鄙视链。

在以往与弊圈相关的文里,我们对推广中的作弊技术做过简单介绍。但从未提及“弊”圈不和,相互瞧不起这些事儿。现在,带一众混迹移动广告行业的广告主,深入弊圈,观摩“四大天王”大型互鄙现场。

现场直播

 

模拟器 弊圈昵称:模王

本模王座下拥有众多品种模拟器,其易容技能十分了得。可零成本随意变换机型、系统版本。在搭配我最近新收的可修改机器IP的小弟(软件),使我的粉丝团——模丝们用起来广告作弊效果更佳!凭借着无水分作弊技术涵养,本模王完全有资格在弊圈内说“我不针对谁,我是说在座的各位都是辣鸡”这句话。

特殊技能:百变造型,搭配随心。IP地址,说换就换。
良心指数:❤

刷机墙 弊圈昵称:保密

楼上真是好大的口气, 量大钱少才是作弊之道。模拟器连对待广告主该有的真诚都没有,我可是诚意十足、态度端正,全部真机刷量。什么微信阅读、CPC、CPA……各种指标信手拈来。只要我愿意,不管多少流量都不在话下。 如果心情好,说不定我还会给广告主多刷几天留存。刷机墙,才是广告作弊骗取钱财的必备工具,哈哈哈哈!

特殊技能:量大钱少,真机服务。
良心指数:❤❤

劫持 弊圈昵称:主持(主动劫持)

选择一条对的路,比成倍付出努力要重要的多。本主持深谙此道,只要怀揣觊觎之心,就可赚的盆丰钵满。每当有从手机浏览器或pc端下载软件到手机,主动出击提示用户有安装风险,让用户从手机厂商的应用市场去下载。不费一兵一卒,直接获益之法你们和我多学学。

特殊技能:伺机而动,不放过劫持流量任何机会。
良心指数:无

真人群刷 弊圈昵称:老实人

只有广告主想不到的,没有我们做不到的。您是刷点击、激活还是注册、留存,组合指标我们也是可以的。一旦接到您的流量订单,我们就通过兼职网站、qq群等召集一票大学生、社会闲散人员。用勤劳的双手,真实的手机完成您的流量需求。

真人群刷,不仅稳定了社会治安,说不定在做单的时候发现广告主产品实用,就转化成真用户了呢。

特殊技能:量大钱少,真机服务。
良心指数:❤❤

直播结束

 

相信移动广告行业的少男少女们,通过对弊圈diss现场直播的观看,对作弊技术有了进一步的认知。刷机墙,略微有些技术含量;劫持,不参假的流氓行为;刷机墙,购买后用来刷量的真实机器;真人群刷,真人、真机、假量。

如果广告主们在推广时,遇上了“四大天王”并又很不幸的遭受到来自“四大天王”的组合拳。那么,广告主们很难不会面临推广费打水漂、营销指标增长全部为假量的人间惨剧。

如何让推广费在“四大天王”的夹击中幸免于难,就成为了本篇最重要的中心话题。TalkingData Ad Tracking的五大防作弊体系和分包统计功能,可识别各种作弊技术,轻松应对“四大天王”每一次作弊,帮助广告主量化推广效果和优化投放策略。移动广告行业的少男少女们,我们现在就一起了解下TalkingData Ad Tracking的这两部分功能吧~

五大防作弊体系

1. 防刷量SDK

TalkingData Ad Tracking通过SDK集成的作弊防护模块,进行数据通道加密确保传输安全;收到激活请求时,服务器端将拦截伪造激活数据,提升整体数据传输安全系数。并且加入行为识别技术,通过终端位置变化、传感器数据建立的模型,识别出哪些是问题设备;

2. TDID身份验证

拥有唯一身份的TDID作为验证,至少3次的数据清洗、排重、过滤、确保数据精准。实时反馈异常数据,通过Cookie排重、IP段排重、点击有效期限制、异常数据;

3. 转化时差

“转化时差”也是激活作弊的一种典型,移动广告行为点击、下载、激活等步骤,每个步骤都有对应的时间,设置异常时差范围,在分析点击和激活的时差后,校验时差设定范围,将激活转化过快的设备归为异常;

4.IP段防护

通过点击激活IP进行分析,从大量的作弊日志中发现某个时间段内,点击或激活的IP过于集中,将提供基于异常IP段防护策略设定峰值,超过峰值范围将被归为异常数据进行处理;

5. 持续ROI

ROI考量是衡量渠道质量的有效手段,持续考量用户后续转化,促进用户付费转化才是推广的最终目的。用户激活后,TalkingData Ad Tracking将为永久追踪其后续留存、付费转化情况,以监测广告真实效果。

分包统计

1.双维度数据统计

在所有安卓激活及效果点击的数据,系统将基于分包ID和媒体点击进行双维度归因。通过Ad Tracking的报表,应用开发者可了解每个渠道包的用户转化,以及使用Ad Tracking监测链接分包推广的点击监测,了解用户点击带来的转化数据;

2.分包数据统一管理

应用开发者无需再在Ad Tracking系统中生成渠道ID,系统将自动记录所有的渠道包ID。

证券行业移动App行为数据研究的商业价值

证券行业的客户金融交易渠道正在转向移动互联网,客户证券投资和财富管理服务将主要发生在移动App,其将成为客户的主要入口和金融产品主要发布场所。

证券企业如果想赢得未来市场、赢得客户,取得在金融市场的领先优势,就必须了解客户对金融产品的需求,重视客户的交易行为和互动行为数据。

利用数据提升客户体验,提升移动互联网端的数据和业务运营能力,具有同互联网企业一样的技术能力和迭代速度。重视用户的移动端行为数据将成为证券行业未来在市场成败的一个关键。

证券行业过去主要分析交易数据、资产数据、产品数据、人口属性数据。典型数据应用有数据库营销中的关联分析和交叉销售。交易数据对营销具有较大的商业价值,特别是老客户经营。例如某些产品的客户复购率较高,利用交易数据可以进行多次营销,降低营销成本。

行为数据相对于交易数据具有不确定性大的特点,行为数据更关注客户的兴趣偏好,更适合用于了解客户体验和用户潜在金融需求。利用App行为数据进行营销,具有范围广、预测性强等优点,缺点主要在于其营销的业务转化率不太稳定。考虑到潜在的目标人群基数较大,即使是较低的转化率,其转化的目标客户也会很多。

曾经在一个案例中,利用资讯推送来影响客户进行投资,转化率接近40%,大大超出了预期。一般行为数据营销的转化率低于10%,集中在1%-5%之间。如果低于1%的转化率,这个基于行为数据建立的营销方案将会被放弃。

行为数据的场景应用是建立在场景化标签之上的,基于App内部行为的场景应用来源于具体业务目标,例如证券App中的绑卡入金、购买理财、股票交易、基金买卖,贵金属购买、关注收藏等。

No.1 行为数据分析有助于加速产品迭代和提升客户体验

App行为数据包含浏览、点击、评论、交易等几类,可以通过App的按钮和事件埋点进行提取。经过异常值处理和数据去噪音之后,就可以进行分析和应用。移动互联网企业BAT等巨头,其产品和用户体验的竞争力就是来源于行为数据的分析和应用。

过去证券行业人员可以通过线下的营业网点来接触客户,利用同客户面对面的交流,了解客户的金融产品需求和用户体验。现在客户几乎不再去营业场所,或者去证券营业部的客户年龄都较大。光大银行曾做过统计,经常到营业网点办理业务的客户,平均年龄为52岁,说明年轻客户基本上很少去网点办理业务。

而年轻客户正是证券行业主要的客群,未来将会成为证券企业的主要收入来源。证券企业如果想了解客户的金融需求和用户体验,其主要的方式就变成了分析App的行为数据,这也说明了研究分析App行为数据的重要性。

在互联网企业中,App运营团队有一个重要的职责就是每天分析App的行为数据,主要是因为行为数据代表了客户对产品的喜好。基于对App行为数据的分析,互联网企业的产品经理可以及时调整产品,进行产品迭代,快速满足客户对移动产品的需求。互联网企业产品迭代完全基于App行为数据的分析结果。

客户在App的点击行为和浏览数据,辅以时间维度分析和漏斗分析,可以真实反应客户体验情况。互联网企业的运营部门参考这个数据可以分析客户喜欢哪些产品、广告、活动等,反之亦然。利用行为数据分析,运营部门可以实时了解客户体验情况,及时调整运营活动和产品布局,围绕客户需求来提升客户体验。移动互联网时代,客户体验比产品本身更加重要。

证券行业一直想学习和掌握互联网企业的竞争优势,特别是在产品迭代和用户体验提升两个方面。行为数据分析为证券行业产品迭代和体验提升提供了技术支持。证券企业完全可以深度分析App行为数据,利用行为数据分析结果来进行产品迭代和用户体验提升。

例如,证券行业可以通过分析App的点击热力图,来了解客户喜欢哪些功能,客户很少点击的功能就可以及时下架。参考AB 测试的数据来分析客户更加喜欢哪些功能,基于客户点击喜好进行App的功能迭代和用户体验提升。证券行业还可以依据客户DAU、留存时间、打开次数等行为数据,了解客户对App的体验反馈,留存时间增加和打开次数增多反映了用户对App的喜爱程度的增加。实时反馈的行为数据可以及时让证券行业了解体验情况并及时进行产品迭代。

证券移动App的行为数据具有直观、实时、客观等特点。基于行为数据的分析对于了解客户体验和产品偏好具有重要意义,是证券行业产品迭代和用户体验提升的基础数据,证券行业必须重视对其的研究和应用。

No.2行为数据研究有助于提升券商互联网运营能力

互联网行业有一句经典的话,三分产品七分运营,好的产品不是设计出来的而是运营出来的。互联网运营的基础就是行为数据的分析,运营团队借助行为数据的分析实现运营能力的提升。

证券企业希望学习互联网企业的数据运营能力,其主要体现在对数据的分析和应用能力,包括基于数据的产品运营、渠道运营、用户运营、活动运营等。这些运营能力是建立在数据分析和应用基础之上的,其中行为数据应用能力是其重要组成部分。

产品运营的核心工作就是产品优化,包括UI/UE与产品框架,以及内容建设、产品维护、用户维护、活动策划等。用户需求不断变化,需要对产品进行持续的迭代完善才能满足用户需求,没有运营则无法时刻洞察用户需求变化;运营是让产品持续产生产品价值和商业价值。行为数据是产品进行优化的基础,基于行为数据中的点击数据和浏览数据,运营团队可以了解客户对UI和产品的喜好、对内容的关注、对活动的反馈,依据行为数据分析进行产品迭代和优化,行为数据是产品运营的重要参考。

渠道运营是指利用资源和流量为产品带来新增用户,包括免费、付费、换量、人脉积攒、产品的吸引力、圈内人的推荐、策划活动、内容营销、用户口碑等手段。互联网线上渠道发展比较野蛮,鱼龙混杂。特别是移动App推广市场,不但流量贵,而且充斥虚假流量。参考《TalkingData发布的2017年移动互联网行业发展报告》,在某些高峰时段,一些渠道的虚假流量超过了50%,也就是说至少有一半的点击和下载是无效的,广告推广费用是浪费的。曾经在某一个特殊时间段,TalkingData移动广告监测平台Ad Tracking在一天时间内统计到24亿次点击,其中90%的点击是恶意刷量。

券商利用App的行为数据可以有效分析出哪些渠道效果好、真实流量比例高,哪些渠道效果差、虚假流量明显。通过对行为数据的分析,还可以判断出哪些是真正的客户,哪些是一次性客户,哪些是羊毛党客户,哪些是有效客户。通过App渠道分析数据,券商可以降低广告投放费用,提升线上获客质量,提升广告获客的ROI。行为数据是渠道运营的重要参考指标,通过App渠道数据的分析,可以提升券商在移动互联网渠道的运营能力。

用户运营指以用户为中心,遵循用户的生命周期价值点和用户产品需求设置运营活动与规则,制定运营战略与运营目标,严格控制实施过程与结果,以达到预期所设置的运营目标与任务。用户运营最直接的价值,就是提升用户金融产品的复购率、提升单客价值、激活休眠客户、挽留流失客户、发现潜在客户等。证券行业面临较大的挑战,包括休眠客户比例过高、客户单客价值不高、流失客户明显等等问题,都可以通过行为数据分析找到解决办法。

例如,通过客户点击和关注的数据,了解客户资讯需求,主动推送相关资讯,激活休眠客户。利用点击和浏览行为数据趋势分析,及时了解客户流失倾向,结合客户产品喜好和兴趣爱好,定制激励方案,挽回流失客户。行为数据可以直观反映出客户兴趣和喜好,为用户运营提供方案支持,具有非常大的参考价值。

券商如果希望在产品运营、渠道运营、用户运营等方面具有与互联网企业同样的技术和运营能力,就需要重视行为数据的分析和应用。

No.3行为数据应用是券商业务智能化发展的基础

证券行业智能化发展是必然趋势,一方面是智能化应用的技术条件已具备,例如数据处理能力、模型算法能力、专业人才储备;一方面是券商所面临的经营成本高、效率低、客户服务覆盖率低等问题,都可以通过智能化应用来解决。

证券行业智能化应用的广义涵义,是借助工具平台和智能应用来解决具体的业务问题。这些业务问题,可能是个人投顾无法直接服务全体客户;可能是传统电话客户服务成本高、效率低,客户体验不好;可能是内部流程效率较低,无法满足客户变化的金融需求;也可能是投研和投顾人员缺少可以服务客户资讯平台等。

证券行业智能化应用狭义的应用领域,包含智能投顾(机器人理财)、智能客服、智能资讯推荐、智能投研数据平台、智能数据应用平台等。其主要解决的还是效率问题,本质还是券商服务的自动化和智能化,可以提升客户体验和降低服务成本。

证券行业智能化应用的一个前提是海量数据,包含交易数据和行为数据。但是这些数据不是原始数据,而是经过业务专家标注的、具有业务价值的数据,可能是标签数据、归类数据和分析结果数据。

行为数据对于智能应用具有较大的商业价值,例如在智能客服中,客户的行为数据代表其产品和风险偏好,智能客服可以基于这些处理过的行为数据,为客户打上标签。基于行为数据进行客户分群或分层,智能客服将参考这些行为数据定制客户服务内容,直接有效地为客户提供金融产品服务。借助于行为数据标签,智能客服将会缩短服务路径,直接切入客户喜好,提升客户体验,提高服务效率。

例如,如果行为数据揭示客户倾向于港股交易,智能客服在服务时就可以侧重于港股资讯。如果客户有融资融券倾向,智能客服就可以提供相关介绍和激励措施。如果行为数据揭示客户倾向投资能源板块,智能客服就可以提供更多的能源资讯,为客户投资提供参考。

智能投顾的原理是参考客户投资风险偏好和投资兴趣,为客户定制投资组合,在一定风险可控的前提下,获得一定的最优收益。行为数据可以支撑智能投顾中客户的投资偏好洞察,通过对客户点击、浏览、关注等行为数据的分析,券商可以了解客户的投资兴趣偏好。

例如客户点击股票所属的板块、关注的交易板块、浏览的资讯,这些行为都可以在一定程度上反映客户的投资兴趣,经过一定分析和加工之后,可以作为标签类数据输入到智能投顾平台,作为智能投顾推荐投资组合的参考信息,有助于提升智能投顾的客户体验和客户购买转化率。

券商移动App行为数据具有intention属性,代表了客户内心的需要,也可以认为是客户理性行为和感性行为的综合,其中感性成分更高一些。中国的投资客户,大部分体现为理性投资客户,但是在进行证券交易时往往体现的是感性一面。因此研究行为数据有利于了解客户心理行为,也就是客户感性行为。行为数据经过加工处理之后,可以表现为标签数据,结合业务场景和交易数据,帮助券商更加客观了解客户金融需求。

券商可以针对客户的兴趣爱好,提供相应的智能资讯和投研报告,协助客户作出更加客观的投资决策。行为数据结合相应的资讯,可以缩短客户决策周期,提升客户交易积极性,有助于提升客户交易额和交易频度。例如,通过行为数据的分析,推送客户关注股票板块的资讯,通过不同组客户测试,发现收到资讯的客户其交易下单率高于非收到资讯客户30%,而收到相应板块资讯的客户其交易下单率高于非收到相关资讯客户50%。

总之,对移动App行为数据的分析和应用可以帮助券商加速产品迭代和提升客户体验,建设与互联网企业同样领先的运营能力,并为券商智能化应用提供具有较高商业价值的数据,推动券商智能化应用的发展。

相关阅读:

搭建三级标签体系,提效证券App运营

三大方面、两个案例,解析用行为数据提升证券App用户体验

咨询专栏 | 券商App行为数据驱动核心业务优化

2018年,成为数据科学家需要哪些技能?(翻译)

作者:Iliya Valchanov

原文:What are the Skills Needed to Become a Data Scientist in 2018?

译者:TalkingData市场部

本译文禁止商用,转载请注明来源!

据Glassdoor,数据科学家是2017年美国的头号职业。这并不意外,因为这一领域的中位基本工资达到了12万3千美元。但数据科学家的就业市场远不饱和,仅在美国就有19万的人才空缺。如果你在考虑转换跑道成为数据科学家,2018年提供了充足的机会。这篇文章旨在帮助梳理如何在2018年成为数据科学家。

为了了解这个发展中的领域,2017年末365 Data Science针对这一主题在进行了调研。这项研究基于从1001名LinkedIn简介中目前职位为“数据科学家”的简历中收集的数据。这个群体被分为两组——就职于财富500强企业的人、以及就职于其他企业的人。此外,样本中数据科学家的工作地点包括美国(40%)英国(30%)印度(15%)以及其他国家(15%)。同时,为了控制偏差,数据收集自不同背景的数据科学家。

男性,至少会说一门外语,并且拥有本科以上学历(硕士或博士)。他拥有4.5年工作经验,并需要花2年来获得(数据科学家)这一头衔。R和Python是首选的编程语言,其次是SQL。

无法忽视,数据科学专业严重被男性掌控,在此次的样本中70%为男性。尽管如此,面对这一领域的巨大需求,只要具备相关知识,任何人都能在行业中拥有一席之地。所以,如果你碰巧是一位女性,不要灰心,请继续读下去。

数据科学家最必要的技能是什么?

以下是数据科学家简历中最常见的技能:

R和Python是数据科学领域的主流编程语言。53%的数据科学家声称掌握R以及/或Python。注意,在某些数据科学家在工作中同时掌握这两种语言。

在不断变化的数据科学世界中,专业人士要在工作中运用最新的工具。R和Python是最基础的编程语言,每个尝试想进入这一领域的人都应该学习。

Stack Overflow社区建议,尽管数据显示R是更为广泛应用的语言,但鉴于 Python是发展最为快速的编程语言,可以考虑将Python放在学习计划的首位。到2019年,Python很有可能会在使用人数方面大幅超越其他编程语言。灵活性和易用性是使得Python脱颖而出的首要原因。

在数据科学家中,其他受欢迎的语言是:

  • SQL(40%)
  • MATLAB (19%)
  • Java(18%)
  • C//C++(18%)

想学习更多?

我们发现,最好也能掌握SAS、LaTex、Hadoop或Tableau。拓展基础之外的专业技能可以显著提升获得数据科学家职位的机会。

工作经验

鉴于数据科学家这一职业诞生不久,也就不意外数据科学家职位经验的中位数只有2年。如果你是在无该领域相关经验的情况下申请数据科学家职位也不用尴尬,你不是一个人。

在此次研究的样本中,只有36%的数据科学家的前一份工作也是数据科学家。在这个领域中还有很大的成长空间。那另外64%的人之前的职位又是什么呢?最为常见的背景是分析师(19%)、IT专家(16%)或者学者(12%)。

并且,8%的人在成为数据科学家之前是实习生。
这些人从零开始实现了梦想。你也可以!

教育与培训

大多数以数据科学家为工作的专业人士受教育程度很高。实际上,结果显示75%的数据科学家不是博士就是硕士。

但是,华丽的学位并非必需。此次研究样本中,大约有25%的数据科学家毕业于“没有进入排名的大学”。换句话说,无论你的母校是否进入了“泰晤士高等教育”榜单(注:由《泰晤士报》评选出的世界顶尖大学排行榜),并不会为你是否能开始数据科学的职业生涯带来决定性影响。

此外,只有13%的人在大学中参与了数据科学或分析学项目。大多数数据科学家的所学专业是计算机科学(20%)统计学和数学(19%)社会科学(19%)。只要你在某一学科有足够的基础,就很有可能迈入数据科学的大门。

因此,你并不是一定要上额外的专业课程来掌握这个工作所需的技能。如果你想升级你的技能,在线课程也是可选的替代方案。近40%的数据科学家在其LinkedIn的个人简历中提到参与了在线课程。

就业行业

一旦你掌握了相关技能,你就需要撸起袖子找份工作。所以,数据科学家工作的首选行业是什么呢?在英国和美国的就业市场,你可以在产业企业(制造、快消、公共事业、咨询等)中找到数据科学家的工作。但在印度并不是这样,那里大多数(68%)的数据科学家在科技或IT企业工作。

医疗保健和金融行业看上去也需要数据科学家,在全部样本中分别占14%和6%。

就业企业

你是更想进入财富500强的巨头,还是更喜欢小型企业?无论企业层级如何,各种规模的企业都在招聘具备R、Python、SQL和Matlab编程能力的数据科学家。但是,如果你的目标是财富500强企业,SAS和Hadoop可能会派上用场。其他企业则很少会要求能够使用Hadoop。财富500强企业中,大数据为王,但对小型企业来讲并非如此。

这是数据科学职业在2017年底的情况和贯穿2018年的趋势。好消息是,即便你没有相关学历或足够的相关工作经验,也还来得及掌握相关技能和工具。如果你对数据和终生学习抱有热情,2018年是开始追求数据科学家职业生涯的好时机。

大数据的“无所不能”与“无能为力”

作者:TalkingData 于兰

本文由TalkingData原创,转载请获取授权。

偶尔与身处传统行业的朋友聊到大数据,朋友说,对大数据怀有一种“敬畏”的心理,认为它很神奇,神奇到似乎可以点石成金无所不能。但身处这个行业,在敬畏它的同时,却不时会被一种深深的无奈所包裹,切实感觉到在梦想面前,大数据也有太多的无能为力。所以今天,我们来聊一聊大数据的”无所不能“与”无能为力“

大数据的“无所不能”

无论是传统工业时代,还是大数据时代,信息是决策的基础:更优的决策,需要更多、更及时的信息——大数据的价值核心,是“消除信息不对称”,即提升人或程序对事物的认知。

因此,大数据可以做很多事情:

  • 在市场营销中,大数据可以帮助市场人员了解客户群体的特征、偏好和购买倾向——只将广告投给需要的人,可以节约被浪费的广告费,却不降低广告的效果;
  • 在金融风控中,大数据可以帮助业务人员了解顾客群体的收入水平、资产情况、借贷历史、违约风险——不向高风险顾客发放贷款,或事先对可疑人员进行核查、采取措施,可以有效降低坏账率,提升资产质量;
  • 在零售经营中,大数据可以帮助领导层了解各商圈的人流量情况、人群特征、周边环境、竞品策略等(是比现场调研更全面、更高效且成本更低的市场分析方案)——选择人流量、人群消费水平更符合本企业定位,且竞品并没有深入挖掘的地点开设新店,意味着在起步阶段就跑在了前面;
  • 在物流运输中,大数据可以帮助经营人员了解各地需求、线路业务量、节点负荷和处理效率——线路规划、节点布局及资源配置、关键节点优化,都可以有效的提升物流效率。

除了以上为企业带来切实利益的大数据应用,伴随着机器学习、人工智能的发展,大数据也为我们展开了更宏伟的蓝图:

  • 语音识别和文本挖掘,使得人与机器的自然交互突飞猛进,各种智能交互机器人层出不穷;
  • 图像识别和处理技术,结合线路规划、智能决策等大数据应用,让无人驾驶站在了时代的风口上;
  • 对各种疾病发展过程、影响因素的分析,及人体状态的监测、感应,形成了健康监护和智慧医疗的前提;
  • ……

一言概之,大数据为“信息获取”开辟了无数的通道,引领我们一路高歌猛进,依靠大数据,我们对周围的世界、对自身、对事物之间的关系都有了更深入的认知,也有了以前想都不敢想的各种处理方案,让我们“无所不能”。

但理想总是“丰满”,现实却是“骨感”,看上去“无所不能”的大数据,本身就带着诸多的“无能为力”。

大数据的“无能为力”

数据质量

伴随“多”的是“无序”,伴随“更多的信息”而来的,可能是“信息冗余”。数据质量,是数据应用之初与生俱来的问题。

要判断移动设备的常驻城市,可能从数据源A得到的是北京,从数据源B得到的天津,而我们压根儿没有明确的标准,来判断数据源A和B到底哪个正确,因为,正是因为不知道才需要寻求外部数据源帮助!

也许你会说,找已知样本测试就可以了。但事实上,很多数据且不说能不能找得到样本,即便能找得到,用作标准的样本本身有多大可信性,也是一个需要验证的问题。

隐私与安全

伴随着大数据的应用,越来越多的数据被“滥用”,隐私被泄漏的问题被曝光。数据应用的程度越高,经过的验证和磨砺越多,准确性越高,所受的监管也就越强,使用过程中所受限制就越多。

对于数据应用方来说,面临的可能是不断的寻找数据源、验证数据有效性、接受监管并调整、寻找新的数据源的过程。

站在数据应用方角度,面临客户隐私与数据安全,会时不时的有深深的“无力感”;但站在整个社会责任的角度,数据隐私与安全则是必须要守住的底线。

边界与壁垒

我们数据应用中的很多设想,都建立在各方数据可无缝打通和关联的基础上,但实际数据应用中,因为数据产生于不同的企业主体、有不同的处理流程和架构,“关联”并不是“无缝”的。

  • 千辛万苦找到了适合的数据源,可能因为双方ID无法打通,导致数据根本无法使用;
  • 战略合作训练了效果很好的模型,可能因为双方数据都无法出各自机房而无法实际投产,寻找绕行路线却又大大牺牲了效果;
  • 数据与场景的结合,可能因为合作双方理解差异导致数据的误用……

如何减少大数据的“无能为力”

首先,建立数据流通标准。“标准”可以在很大程度上解决“质量”的问题,也可以让供需双方更好的对话,降低数据流通的成本;

其次,划定数据安全基线。有“基线”,就有了“基线”范围内的自由和法律保护,将“隐私与安全”作为每一个市场玩家的底线,就不会在安全加码时束手无措倍受打击;

再次,构建数据流通平台。“平台”可以有效承载数据流通的标准,同时更好的打破供需双方的边界壁垒,实现供需有效结合。

TalkingData智能数据服务商城,致力于为数据供应方和数据需求方提供平台,实现数据流通过程中的标准化交付、质量评估、实时计量等公共能力,降低数据交易流通成本。

让理解照进现实,实现大数据的“无所不能”,我们一直在努力。

 

崔晓波出席爱分析中国大数据高峰论坛,总结改造行业的4大步骤

近日,TalkingData创始人兼CEO 崔晓波出席由北京爱分析科技有限公司主办的“2018·爱分析中国大数据高峰论坛”,并在会上做了题为数据智能应用和商业模式发展的演讲。

本次大会吸引了200多位行业精英与投资人共同参与,会议围绕着数据服务、大数据垂直应用、数据分析平台等多个领域进行了深入的探讨。

TalkingData创始人兼CEO 崔晓波

TalkingData创始人兼CEO 崔晓波在演讲中提到:“数据智能”在未来5到10年内是一个非常关键的概念。智能与数据相辅相成,如何运用好数据去创造智能,是企业需要在未来不断探索的方向。

同时,他又从五个方面剖析了 TalkingData 在大数据,特别是数据服务领域里的探索和思考。

一、中美市场的差异与联系

1、技术与基础设施差异

崔晓波认为:数据是链接中美智能应用的桥梁。

近两年来,TalkingData团队与世界最大的数据科学社区——Kaggle共同举办了两场活动。

第一场活动中,由TalkingData提供脱敏后的中国移动互联网行为数据集,邀请全球的数据科学家构建高准确率的人口属性预测模型。约有2600个团队参与了此次活动,共提交了约2万个模型。

通过研究可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识,因此中国真正缺乏的是针对如金融、地产、零售、互联网、工业等各种领域的相关知识,在这些领域里仍需要去长时间的探索。

目前,TalkingData又与Kaggle共同发起了名为:TalkingData 全球广告反欺诈算法大赛的活动。

TalkingData此次提供中国在广告反欺诈中遇到的大量相关问题和数据,而这正是很多国外的数据科学家难以遇到的。可以看出,中国在应用领域已经迈入前沿,但仍缺乏技术和基础设施。

2、数据安全上的差异

此外,中美在数据安全方面也有差异,崔晓波提到:真正拥有数据的企业不愿共享数据,而是选择垄断,因为很多技术问题尚未解决——如何安全的共享数据、以及数据合规等问题。

数据安全与网络安全情况迥异,企业IT系统由云、IDC以及内部网络构成,因此网络外面需要有一层边界,不能让黑客进来,但若该层边界都有问题,或企业出现内鬼,又如何保障数据安全呢?像 Facebook,其在数据安全上投入巨大,也出现了非常新的技术,例如可以通过网关看到企业所有的数据流动,信息如何从一点到另一点,又如何被使用。在这方面中国没有积累,技术上的差距有5到10年。

TalkingData 致力于解决这些问题,推出一套体系,在数据不流动的情况下也可以共享的解决方案。

业务的问题要回归技术,最终仍要用技术本身去解决问题,这是中国企业所欠缺的。因此崔晓波认为,中国下一阶段的数据服务需要突破技术的限制。

二、从实体物质化到虚拟数字化

崔晓波提到:“我们看世界的角度将从实体物质化转向数字虚拟化”。这将是未来的发展趋势。

未来是机器学习、深度学习的时代,Google 在2014年、2015年就将大量资源投入到机器学习研究中,因此在2016年,AlphaGo出现了。

AlphaGo将物理世界数字虚拟化,之后就可以用不断增长的计算机算法去加速学习过程,达到破局的效果。

但是在绝大部分领域还做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。

自动驾驶技术达到L5(完全自动驾驶)就会颠覆了原有行业,但在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类诊断,其价值就有限。

要达到产生颠覆的阶段,所需要的时间远比我们想像的要长。

崔晓波认为,大家现在对人工智能过于乐观,未来几年会有所回落,但技术本身是非常具有价值的。

TalkingData创始人兼CEO 崔晓波

三、大数据通过四个步骤改造一个行业

根据TalkingData的经验,不管何种行业都可以从四个步骤去进行改造。

  • 业务数据化
  • 应用场景化
  • 流程自动化
  • 决策智能化

首先是业务数据化

根据以往经验,很多传统行业的业务流程没有真正数据化,业务好或不好都没有一套数据体系、指标体系、方法论体系去进行评估管理,而“业务数据化”就是各种大数据、商业智能等技术搅合在一起的过程。

其次是应用场景化

这里特指数据应用的场景化——在完成数据化后,考虑用何种方法提升业务,用大数据、算法模型、机器学习的方法去做应用场景化。

但目前该过程还是更多基于人工,基于分析师对业务的了解或个人经验,中国90%以上的企业还处于这样的阶段,包括互联网企业。

第三是流程自动化

已经有一些头部企业走到了这一步,比如TalkingData正在合作的某餐饮企业,其拥有50人的数据团队,非常重视数据预测——卖多少汉堡、卖多少咖啡。在TalkingData的帮助下,其预测准确率已经达到95%以上,整个过程需要运用大量的数据,包括天气、路况、客流、历史交易等等。

该餐饮企业可以据此优化第二天的排班、供应链情况,计算下来一年节省上亿元的费用。

第四是决策智能化

TalkingData也为企业选址提供帮助,因为对于下线零售商来说,店铺位置也就决定了这家店是否能成功的百分之七八十。例如TalkingData为某客户提供的选址服务,通过客户提供的三年历史收入数据,经过建模和优化,不仅能够准确预测历史收入,还能够进一步预测新店未来三年的收入,并且实现了自动化预测。之前该企业有200人的选址团队,现在只需要20人,这是TalkingData帮助优化的结果。

以上几步完成后,还有一些头部企业进入到了效益数字化的阶段,当企业完成智能化后,已经有了很强的数据能力,这时企业开始考虑能否将该能力开放给其他企业,将其做成一些指标甚至是智能APP,提供给供应商和下游,甚至将业务切出来,再覆盖产业链中的中小企业。这也是TalkingData正在研究的一个模式。

四、数据智能演进的三个阶段

从TalkingData角度来看,数据智能的演进分为三个阶段:

1)Data到Analysis:拥有大量数据,帮助开发者做分析,但从数据到分析只是浅层次重复,无法形成闭环和带来效益提升。

2)Data到Action:走不通第一阶段,尝试下一步,看数据能做什么,比如是否能优化广告和营销。这在国外可行,但国内很难,因为中国拥有太多的不透明。诺大的网络有很多不透明的算法,将数据的算法逻辑都抵消掉了。

3)Data到Data Science:现在越来越多的企业走到第三个阶段,将数据变成数据模型,证明数据在什么地方对商业有价值。对于企业来说,模型比人工更具有优势,运用之后后以前能做50个产品现在能做500个,这就是提升。

通过Data到Data Science形成闭环,依赖模型持续提升效果,现在是大家的共识。

五、数据服务价值长期才能显现

数据回报定律是指在指数级世界里,数据对商业价值的回报都是加速的,TalkingData服务的所有企业都有这个趋势。

第一年看不到数据对商业有特别明显的回报,而在第二、第三年后就很明显。

TalkingData服务的很多客户都是例证,通过数据真的可以每年节省上亿费用或带来非常可观的回报。

但目前也有很多数据企业急于求成,对客户承诺三个月或半年即可产生帮助,但其实很难做到,结果一定是两三年以后才能显现。

TalkingData发布“透明化”Ad Tracking合作伙伴平台

TalkingData发布“透明化”Ad Tracking合作伙伴平台

基于TalkingData Ad Tracking移动广告监测平台数据,2017年,移动效果广告点击总量相比2016年增长超过17倍;移动效果广告推广激活总量同比增长41.9%,点击量增速远超激活,利用虚假点击刷量情况依然不容忽视。

过去一年,TalkingData Ad Tracking一直致力于打击黑产刷量,陆续曝光了一批刷量渠道以及相关作弊手段,并上线发布相关反作弊产品模块。《制衡刷量“四大术”,TalkingData Ad Tracking上线高级版作弊防护功能》

在统计相关刷量数据时,TalkingData Ad Tracking团队发现了大量监测短链套用现象,导致媒体、广告主、代理商之间出现了明显分歧。为了保证渠道合作伙伴的权益,更准确的量化渠道价值,2018年4月,TalkingData发布了“透明化”Ad Tracking合作伙伴平台,针对性解决监测短链套用问题,赋能于合作伙伴,打造公开透明的广告监测生态。

TalkingData Ad Tracking合作伙伴平台

合作伙伴可以通过平台监控渠道下所有推广活动,并进行审核操作,一旦发现套用情况,可将其立即拒绝,Ad Tracking系统将即刻停止接收推广活动数据,避免出现渠道数据统计偏差;

TalkingData发布“透明化”Ad Tracking合作伙伴平台

Ad Tracking合作伙伴平台Demo产品图

在解决监测短链套用问题的同时,TalkingData Ad Tracking合作伙伴平台还向广大合作伙伴提供了流量基本数据查看权限,合作伙伴可以直接通过平台了解推广活动广告流量及转化数据,避免了繁复的授权过程,缩减人力成本

TalkingData Ad Tracking将秉持以“客户优先”的企业价值观,持续加强产品功能,与各大广告平台保持牢固的合作伙伴关系,继续优化数据挖掘算法,与广告主、媒体、广告网络、代理商等携手打造更加透明的广告生态,推动行业向更加良性的方向发展。

即日起,已入驻TalkingData Ad Tracking的合作伙伴即可申请开通平台账户,开通方式:

  • 合作伙伴技术沟通群(优先)
  • 24小时值班电话:4008701230
  • TalkingData 技术支持群:203585475

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁马骥近日出席QCon全球软件开发大会北京站,并在会上做了以《2018,你不知道的前端黑科技》为主题的演讲。

QCon全球软件开发大会由极客邦科技与InfoQ中国主办,致力于分享和交流新技术在行业应用中的最新实践,助力企业技术选型、业务升级与顺利转型。本次北京站大会规模再创新高,汇聚来自300余家企业的2500余名技术人,其中80%以上的参会者为资深技术人;担任出品人及演讲嘉宾的技术专家超过200名,90%的专家拥有10年以上从业经验,多来自国内外行业领军企业和创新技术公司。

TalkingData马骥出席QCon,分享前端黑科技

QCon北京2018

在Web技术发展的近20年来,有高潮也有低谷。当遇到瓶颈时,必须要用创新的思路及想法去解决,才能形成突破。在大会次日的“技术创新与前沿应用专场”中,TalkingData研发副总裁马骥以《2018,你不知道的前端黑科技》为主题,分享TalkingData近几年在大数据Web开发中一些创新和突破,包括绘制百万行的数据表格、位置大数据地图矢量绘制、Web端数据科学实践及Web端并行计算框架设计。

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁 马骥

平滑流畅的绘制百万行数据表格

马骥表示,根据产品需求,要求以表格形式绘制百万条超大体量POI数据显示。首先遇到的瓶颈是DOM渲染,当数据量达到一万两万、甚至十几万的时候,表格非常卡顿,且CPU占用率极高。

通过排查,发现问题在于所使用的VUE框架下getter和setter所做的数据双向绑定。当所绑定的数据集非常大时,性能就会出现问题。

TalkingData马骥出席QCon,分享前端黑科技

最后改为使用Object.preventExtensions、Object.seal、Object.freeze(扩展对象、密封对象、冻结对象),解决了性能问题,实现了百万行表格的平滑展现,良好承载了对地图和表格之间很重的检索需求。最终效果是,当击右侧一行数据,对应的地图POI点可以高亮显示;反之,点击地图上POI点要显示在数据表格里对应的数据,交互体验超出预期。

Web端数据科学实践

1、自动化配色

马骥认为,自动化是web端很好的数据科学场景。在TalkingData去年开源的地图可视化组件InMap中,对通过自动化提升效率做了重点尝试。据分析,很多数据分析师要花30%的工作量去调整数据可视化的样式,比如调整地图的配色上,这对非设计专业的人来说非常痛苦。如果能提供自动化的配色方案,则会能在很大程度上降低这一成本。

TalkingData马骥出席QCon,分享前端黑科技

在TalkingData的实践中,要先对数据形态进行判断,用四分位以及平均数初步判断数据形态的分布和趋势,用大数据评估是指数型还是线型。然后用色谱通过获取面积等分点模型获取设置区间,最后通过自定义自动化完成自动配色。

2、异常数据检测

大数据永远都会有异常,而数据能否使用,需要进行检测,最基础的就是数据类型的检测。

马骥分享,TalkingData通过统计学模型——四分位的法则去做相对比较宽松的验证,比如四分位、上四分位和下四分位之间的三倍。

TalkingData马骥出席QCon,分享前端黑科技

针对其中最为复杂的异常位置数据检测,马骥带领的团队查询相关论文,将Python版本翻译成JavaScript版本实现,原理是计算两点一线的距离,当距离越大时则密度越低,当距离越小则密度越大,这样就可以将异常点计算出来。

Web端并行计算架构设计

马骥认为,web端的密集型计算是可视化的挑战,其瓶颈在于JavaScript本身,因为JavaScript是一个单线程语言,这就导致一方面CPU的利用率偏低,另一方面密集计算执行需要等待。

在TalkingData InMap的架构实践中,通过增加前端能力,通过前后端协同提升整体性能,进而将服务器端的很多能力转移到客户端去实现,使客户端也具有计算能力,实现业务逻辑和计算能力逐渐上移。

TalkingData马骥出席QCon,分享前端黑科技

InMap架构图

投资人群洞察报告

背景

  • 金融行业告别野蛮增长,进入存量客户的精细化运营时代
  • 精细化运营的目标之一是扩大资产规模,转向财富管理
  • 如何服务不同投资偏好的人群,TalkingData用数据分析给出建议

报告部分总结

  • 70后、90后热爱奢侈品的人群更有可能成为基金投资人群。与奢侈品平台进行异业合作可能成为首选。
  • 基金投资以及炒股人群中有杠杆交易行为的基金投资人群,更可能转化为财富管理客户。
  • 银行的大量理财客户同证券客户有较大重叠,先从此部分人群开始运营,收效比较显著。

研究目的:为什么要撰写本篇报告?

  • 在存量客户经营时代,线上业务如何服务财富管理人群,抓住互联网转型第二波浪潮?
  • TalkingData创新金融部从“投资人群”的洞察报告入手,专项分析投资人群中的“手机银行人群”、“基金理财人群”、“财富管理类人群”等人群,结合行业数据和TalkingData数据,为财富管理人群洞察和营销提供建议。

投资人群洞察报告

1.1 炒股人群理财属性

除了占比最高的证券投资属性以外,炒股人群偏爱的投资理财方式是货币基金,紧随其后的有财富管理,手机银行,借贷,直销保险等等。通过证券投资人群的前三名我们将在后面分析炒股人群分别与“手机银行人群”、“货币基金人群”、“财富管理人群”等人群的差异。

投资人群洞察报告

数据来源:TalkingData

1.2 投资人群分层模型

我们将金融行业中的理财金字塔概念放在本章用于解释报告的逻辑,但是因为分析的主题为人群而不是具体的投资产品,所以分层的依据为客群数量多少以及相对应的客户净值的高低。

  • 金字塔底层人群基数大但客户净值低,整体服务成本高,建议提供线上服务。
  • 金字塔顶层人群基数少但客户净值高,单个客户收益高,建议提供线下服务。
  • 针对每一个层次提供基于特殊的人群属性向上增销、转化、定位的建议。

投资人群洞察报告

2.1 手机银行客户分析

人群定义:该人群画像具有诸如有手机银行理财行为,或是手机上没有安装任何券商资讯、证券交易等APP的行为特点。

80后是炒股散户主力军

在使用了手机银行但是没有炒股偏好的人群中我们发现,90后、70后的比率更高,与后面的基金购买人群相似。且中年人群(46岁以上)在手机银行上的行为比炒股更频繁。券商需要思考如何将90后拉回来、如何保留住70后,银行则要思考如何为80后提供更好的投资服务。

投资人群洞察报告

数据来源:TalkingData

2.2 游戏无法填补我被割韭菜的忧伤

通过深度的游戏标签属性,我们可以发现,理财偏好为手机银行端且没有炒股相关APP的人群的更爱玩游戏,其中每天会有至少一次游戏行为的用户超过20%;而相比之下此类用户在炒股人群中仅占7.73%。高频游戏人群在手机银行人群中的比率为炒股人群中的近三倍。

手机银行理财人群的游戏付费意愿更高,有更多人在游戏中花费超过5000元。炒股人群不太热爱玩游戏,但针对手机银行理财人群,游戏化运营可能是一个不错的尝试。

投资人群洞察报告

数据来源:TalkingData

2.3 我与韭菜之间可能只差一个APP

通过分析炒股人群以及手机银行理财人群可以发现,炒股人群中几乎所有人都会关注财经资讯,而在银行理财人群中则只有不到5%的占比。但是两种人群都爱阅读科技资讯类读物。此外,炒股人群更多关注财富管理产品。券商与其在大流量平台买流量,不如在财经资讯类渠道投放广告,说不定会有惊喜。科技资讯和阅读可以作为一种服务,为银行客群提供更好用户体验。

投资人群洞察报告

数据来源:TalkingData

3.1 炒股人群洞察

人群定义:该人群画像为下载了诸如“东方财富网”、“同花顺”、“雪球”等股票资讯软件的移动端活跃人群,并经过过滤刷量、数据去重等数据处理后的“炒股偏好人群”。

KYC – 炒股人群性别分布

炒股人群中男性占比最大,超过74%的炒股人群为男性,超过全量数据的51%,将近四分之一。

券商移动APP的设计风格可以重点考虑男性客户需求,运营活动的话术需要简单明了,小清新风格不适合券商炒股人群。

券商的财经资讯在选择上需要偏向男性投资者需求,考虑增加政治、军事、科技、宏观经济等分析报告。

投资人群洞察报告

数据来源:TalkingData

3.2 KYC – 炒股人群年龄分布

炒股人群呈现年轻化,其中19-35岁的人群占比超过68%,相比在总人群中26%的占比超过一半还多。

券商APP的功能设计需要围绕年轻人群需求,不求界面复杂,但求简单明了,突出投资和交易特色。

年轻人重视客户体验、对活动响应率高,券商APP的色彩年轻化和深化活动运营有可能是个不错的尝试。

投资人群洞察报告

数据来自:TalkingData请点击此处输入图片描述

3.3 百度指数 – 炒股相关需求图谱

成功定位到炒股人群后。 如何精准触达这一群体?

通过在2018年2月的百度指数中搜索炒股人群以及其相关度,我们发现,搜索“炒股”的人群可能是爱奇艺、优酷的用户。喜欢玩GTA5(侠盗猎车5),常逛bilibili,也经常会去斗鱼或者虎牙观看直播。

这些行为在移动端也有一样的表现呢? 我们将在后面通过TalkingData的数据库进行验证。

投资人群洞察报告

数据来自:百度指数官网、TalkingData

3.4 进击的二次元

根据百度指数的数据,炒股人群中,使用b站的人数比率大大超过了总人群的使用比率,为垂直视频领域中占比最高的网站。

比起爱奇艺,炒股人群更偏爱使用优酷作为主要的视频观看媒介,印证了百度趋势的相关度。

营销上,结合TalkingData在金融广告投放方面的经验,建议在优酷上可以进行以品牌曝光为主的投放。

投资人群洞察报告

数据来源:TalkingData

3.5 老铁,火箭走一波!

炒股人群中,不管是使用斗鱼还是虎牙直播的用户明显比率更高。印证了百度趋势的相关度。

尽管虎牙以及斗鱼是知名的游戏弹幕直播平台,但在虎牙以及斗鱼上直播分享理财知识的也大有人在。其他品牌已经在进行流量渗透了,你呢?

投资人群洞察报告

数据来源:TalkingData

3.6 成不了富翁,我们还有GTA5

在游戏偏好中我们发现,炒股人群中喜爱动作射击类游戏(亦如GTA5)的人群占比远远不及总人群。为什么呢?

进一步研究我们发现,GTA5内置炒股系统(线上为BAWSAQ,单机为LCN)。许多搜索“炒股”关键词的人其实是在搜索GTA5游戏中的股票,这也就解释了为什么关键字“炒股”与“GTA5”关联度高,但是炒股人群对动作射击类游戏偏好较低。

3.7 投资是一种信仰,从天天德州开始

相较于总人群,炒股人群的游戏属性较弱,比较偏爱扑克棋牌、经营、策略类游戏。与投资、经营有关的游戏更受炒股人群的喜爱。比如天天德州。

可以结合三方数据找出有投资、经营类游戏行为的人群,进行定向投放或者异业合作。

投资人群洞察报告

数据来源:TalkingData

3.8 入的了贵宾厅,出得了地铁站,骑得了小黄车

炒股人群有明显的商旅特征,包括更显著的酒店、公交出行以及航空出行类应用偏好。共享单车的使用比率也略高于总人群。券商无法像银行信用卡一样通过商旅权益吸引客户,但是因为券商的展业代理人一般会银行网点驻场,那么选择商旅权益较好的信用卡的银行网点驻场在开户获客上或许会更高效。

投资人群洞察报告

数据来源:TalkingData

3.9 上班艰苦阻挡不了我对股票的热情

炒股人群设备活跃时段是比较典型的上班族活跃曲线,白天的活跃时段波段比较平稳,在下午的一点到五点会有比较小幅度的缩减。

早晨活跃时段开始于早上六点,在十点左右达到峰值。晚上的峰值在八点左右,在晚上十点左右开始出现下降,凌晨五点左右到达一天最低谷。可以结合券商公众号的运营团队,将公众号发布的时间设定为 早上十点或晚上八点为图文触达最佳时机。

投资人群洞察报告

数据来源:TalkingData

通过以上炒股人群的行为特征,我们可以大致描绘出炒股人群的一天。

投资人群洞察报告

4 . 基金人群

基金理财人群定义:在TalkingData数据中有“基金理财”标签的人群,该类人群画像具有下载了诸如“财富通”、“陆金所”等基金理财相关APP,或是证券交易用户,或有其他基金理财性质行为特点。

4.1 70后、90后更乐意购买基金

基金人群与炒股人群高度相关(基金理财人群中大部分都是炒股人群,或者说大部分是从炒股人群中转型的)。我们尝试去找出“货币基金人群”和“炒股人群”的差别,为“如何将炒股人群”转化为“基金购买人群”的课题提供数据驱动决策的指导。

我们发现基金人群在19-25岁、36-55岁的维度占比更高。可以总结出,80后更偏爱个人决策炒股,90后、70后更偏向将资金交给基金。

投资人群洞察报告

数据来源:TalkingData

4.2 买过最奢侈的东西就是基金了

通过下图我们可以发现,相较于炒股人群,基金人群在消费定位上更偏好奢侈品以及高端品牌。可以总结出,基金人群平均净值比平均炒股人群高,或者说炒股人群中净值高且有奢侈品消费行为的人群更容易转化为基金客户。通过与奢侈品平台进行异业合作既能为品牌提升声誉,投放的TGI可能也会更高。

投资人群洞察报告

数据来源:TalkingData

4.3基金人群更偏爱BATJ承载的产品

在内容分享类APP中,知乎在两种人群的使用比率都较高。此外,垂直类视频网站中,基金人群更偏爱咪咕影院,炒股人群更偏爱bilibili。货币基金APP中,炒股人群偏好使用陆金所浏览或者购买基金,而基金人群中排名第一的基金类APP为京东金融。炒股人群的资讯阅读偏好比较偏冷门的澎湃,而基金人群喜爱偏大众的QQ阅读。用知乎承载金融大牛的报告输出,说不定会比闷头写投研更高效。

投资人群洞察报告

数据来源:TalkingData

财富管理人群定义:在TalkingData数据中有财富管理偏好标签的人群,该人群画像具有下载了诸如“蚂蚁聚宝”等相关APP、并且经常活动区域为CBD等商务区域的特征。

5 . 财富管理人群

5.1 我是八零后,我为我的股票账户代言

财富管理人群中年龄分布与基金理财人群比较类似,相比基金人群,70后、90后的占比更高,80后的占比更低。

80后生活负担和压力较大,更多的人期望通过股票投资来获取更高的收入,其投资偏好比较激进,偏爱高风险高收益。

80后处于财富积累加速上升的通道,券商需要适当引导80后的投资理念,从长期收益和资产配置角度来进行理财规划。

投资人群洞察报告

数据来源:TalkingData

5.2 杠杆加起来,黄金屯起来

总体分析,财富管理人群与炒股人群的金融理财偏好相当,但是数据分析发现偏向财富管理的人群有更高的借贷属性,甚至在贵金属投资中的占比是炒股人群的6-7倍。

在风险更高的期货以及外汇上,两类人群偏好同样较低。可以总结出,财富管理类人群更加偏好中等风险投资,特别是自带杠杆的贵金属投资。结合贵金属交易频度可以从客户行为数据找出潜在的财富管理类用户。

投资人群洞察报告

数据来源:TalkingData

5.3 财富管理人群周末消费地与深圳市民对比

通过财富管理人群与深圳普通市民的周末消费地点的线下POI热力图对比,我们可以发现,财富管理人群主要出现在南山欢乐颂、清华大学园以及布吉附近。与我们假设的“CBD等商务区域”偏好相差甚远。

与一般市民聚集于罗湖相比,大部分财富管理人群周末都聚集在南山(科技园区所在地),以及郊区的高端住宅区。可以总结出,其实有财富管理偏好的人群周末比较宅,更喜欢与家人共度休闲时光。

投资人群洞察报告

财富管理人群2018年1-2月深圳周末消费地点(4点-6点)

投资人群洞察报告

深圳市民2018年1-2月深圳周末消费地点(4点-6点)

投资人群洞察报告

深度人群洞察咨询,请联系——

400-870-1230

support@tendcloud.com

热点观察站丨初探网约车江湖的头号玩家

图片来源于网络

江湖笑,恩怨了,人过招,笑藏刀

红尘笑,笑寂寥,心太高,到不了

江湖笑周华健 – 雨人

在“唠嗑”前,借助这首《江湖笑》来描述当下的网约车市场再适合不过。继美团打车登陆上海、高德推出顺风车、嘀嗒出行再开九城,易到宣布调整公司业务模式,提升优惠力度,各网约车平台摩拳擦掌,如今在线旅游平台携程也将开始自营网约车。沉寂许久的网约车江湖,再次掀起掀起腥风血雨,刀光剑影、江湖从此不再太平。

网约车互联网热度趋势曲线

数据来源:百度指数

数据来源:百度指数

基于百度搜索“网约车”关键词趋势曲线,我们可以很明显的看到从2月节后,各大势力逐渐杀入市场带来的关注增量,在2018年4月4日达到半年以来的最高峰。随着事件的升级和关注度增加,媒体结合网约车的报道相继猛增,同时介于江湖再次掀起波澜,价格战马甲车制度管制等话题愈演愈烈,也让“网约车”媒体指数在近期达到了顶峰。

谁是网约车江湖里的头号玩家?

在此番江湖纷争中,“门众”(司机)的争夺再次成为众矢之的,各门派则需绞尽脑汁,以各种赏金或机制招募“门众”。据悉,美团打车祭出的“促销组合拳”包括:上线前3个月,对快车司机“零抽成”,之后收取8%的佣金(其他平台一般抽成20%);快车乘客也有实惠,前三单每单可减14元;出租车驾驶员推荐一名同行加入并完成两单,可获一次性奖励20元,乘客每单能减免3元。

与此同时,“滴滴出行”则一连几天给乘客发短信送“福利”:先送18元打车券,再送3张10元立减券;双休日叫响“越打越便宜”的口号,乘客前4程依次可减8-11元;从周二起连续三天,直接抛出了“0元打车享不停”。

不过和小说中的江湖门派有所不同的是,此“门众”可在各大门派中游走,随时可寻求高佣金、高福利的门派。从而,“门众”则成为这条利益链中的头号玩家。欢迎来到本期的《热点观察站》,我们今天暂且搁下江湖门派的恩怨情仇,借助TalkingData营销云,初探网约车江湖中的“头号玩家”——司机,看看他们究竟是一个怎样的群体。

网约车“女侠” 为何仅占比17.55%?

图片来源于网络

数据来源:TalkingData

网约车女司机占比仅为17.55%,究其原因可以从三点进行解读,其一,安全性,毕竟“拉活”在外,无法保证顾客的素质与乘车目的,顾虑自身安全是女性成为网约车司机的关键因素;其二,车内整洁,相比男性、女性对车内整洁有着更高的要求,对于“外人”给车内带来的异物或污渍等有一定的排斥性;其三,社会上对女性司机有一定的驾驶偏见。

不过根据某网约车平台的评价体系数据呈现,乘客对女司机评价最多的三个词语为:车内整洁服务态度好驾驶平稳“女性相对来说比较细心,对自己的车容车貌和服务态度都有要求,也懂得控制情绪,这也许是获得高分的原因。”(来源于媒体对女性网约车司机的采访描述)。

数据来源:TalkingData

从年龄层上来看,19-35岁互联网人群为网约车司机的主力军,同时也不乏36-45岁的老司机。

网约车司机为何会偏爱中高端手机?

数据来源:TalkingData

数据来源:TalkingData

影响“抢单”的因素不仅取决与个人的意识和手速,手机的流畅性与移动网速也至关重要,所以手机对于网约车司机有着更深层次的使用价值。在运营商分布与联网方式方面,中国移动占比56.04%、中国联通占比21.86%、中国电信占比20.85%;联网方式75.77%为4G网络,高出2017年移动互联网人群6.47个百分点,这也侧面印证移动网络是网约车司机们的刚需,同时4G的资费的优惠政策,也是4G网络大规模普及的原因之一。

2000-3999元中高端机型是网约车司机们的首选,整体占比47.54%,高出2017年移动互联网人群3.94个百分点(详见TalkingData-2017年移动互联网行业发展报告)。在这个价位的手机中“屏幕尺寸”、“硬件性能”相对更能满足他们的需求。从手机品牌上来看,网约车司机们更青睐OPPO,其次是vivo华为

哪类应用更能触达到网约车司机?

数据来源:TalkingData

通过数据,我们可以看到网约车司机在“出行”、“汽车服务”应用品类上有较强的覆盖率和TGI偏好,汽车服务更多在于”查违章”、“汽车保养”类应用,这与其人群特征有着较强的关联。同时不难发现,他们对于房产医疗餐饮金融理财也有着较强的兴趣偏好。其中,餐饮以O2O外卖为主,房产则更偏向于租房细分品类。

加班热点工作区&夜生活区域热力图

数据来源:TalkingData

与其说是北京网约车司机凌晨(22时-次日6时)热力图,倒不如说是“北京加班热点区域”和“北京夜生活区域热力图”。工作区主要集中在国贸东直门望京上地中关村等区域,夜生活区域主要集中在后海三里屯等地,而在夜间相关交通枢纽及机场、火车站也是热门区域。

我们通过“人群属性”、“设备属性”、“媒介偏好”、“线下热力图”四个维度,进行网约车司机人群画像初步探索,如果你还想了解“同时采用多款打车设备的司机占比”、“网约车司机手机机型TOP榜单”、“不同时间段应用偏好”等更详细的数据维度——

请了解TalkingData营销云产品。