数字化场景助力区域银行客户经营

Markdown

作者:TalkingData 韩娟

互联网金融的崛起,使得客户金融交易途径不再受制于网点、ATM、POS机刷卡等传统渠道。头部各大行纷纷从坐等客户上门,转向主动围绕客户生活、工作、出行等方面挖掘金融服务需求,投入大量资源、人力、成本构建了外场到内场的客户经营生态场景。

对区域银行来说,随着息差收窄、监管趋严、金融科技跨界渗透,迫于生存转型需求更加迫切。但受制于资产规模、业务区域化、资源能力等因素,一来无法像大行一样构建全面的客户经营生态圈,二来如按照大行的客户经营建设路径,必须花费大量精力去解决面临的实际问题:

  • 数据质量:相比大行而言,业务数据缺失和口径不一致等问题较为严重,而且在业务办理时,有些数据没有获取来源,质量提升没有着力点;
  • 工具能力:虽然陆续建立了大数据中心、AI研究中心等,但普遍缺乏对先进技术的理解和搭建经验,需要匹配大量专业人士和借鉴行业经验;
  • 生态场景:区域银行根植当地,熟悉区域经济环境,与当地各机构的优先合作是其优势,但如何在可控成本下找到最优的合作机构是各区域银行头疼的事情。很多城商行和农商行在自己的生态圈内有很多同质的合作机构,如本地同等规模的商超,但迫于市场费用有限以及没有有效衡量投入产出的标准,只能凭经验一家一家试错;线上场景和流量基本被BATJ互联网巨头抢占,互联网巨头为了获取价值高的客群更愿意与大行合作,留给区域银行的操作空间较少,而且对比大行需要付出更高的成本。

因此,客户经营转型中,如何利用自身有限的资源,在可衡量效果的情况下撬动较大的客户市场,是区域银行迫切需要解决问题。那么,区域银行要以较小的成本解决该问题势必要借助外部金融科技力量,同时需要精准地回答四大问题:寻找哪些目标客群?在什么场所寻找?精准匹配什么服务?在什么交互触点下提供服务且保证服务效果?

回答这些问题离不开工具及数据能力的建设和运营方式的沉淀。而数字化场景正是基于专业的工具能力,将客户、产品和交互触点进行量化,快速且轻量投入的应对以上四大问题,构建有效的客户经营路径,在成本可控情况下精准挖掘金融服务场景,真正意义上解决了区域银行当前的痛点。

如何数字化场景

数字化场景是对场景化营销的有效量化,利用数据和工具精准识别场景中的目标客群、产品/服务、触达渠道和服务策略。

Markdown

区域银行想赢得客户和未来市场,更需要将有限的资源集中在其优势区域,这与各城商行、农商行的区域金融服务定位相一致。要达成此目标,就必须深入了解和精准识别客户的金融需求场景,充分重视和利用交互行为数据。在以往的案例中,通过复购行为挖掘业务场景,对复购客群精准的短信资讯推送,留存率提升在30%以上。

No.1 行为数据助力线上客群、产品和触点差异化识别

随着客户交易行为线上转移,很多业务不在柜台面对面办理,无法第一时间知晓客户需求和体验。所以,“三端一微”的移动端行为数据便代表了其产品和体验的核心竞争力。行为端数据包含客户交易前、交易中和交易后的浏览和点击行为,可通过页面和事件埋点进行采集分析。

然而,对于区域银行,因面临客户群体偏老龄的问题,对移动端渠道不敏感,天然认为线上用户量较少,但实际是线上用户量可观。原因在于实际老龄客群会由客户经理帮助做线上操作,而剩余部分才是真正线上用户。在某一实际案例中,在对手机银行用户行为数据分析时,发现活跃客群中有将近50%的行为信息是由客户经理操作,且客群年纪偏大。因此,线上行为数据的分析可按照两类客群进行。

真正线上用户,是区域银行未来的潜力客群,对其金融需求和用户体验的了解,依赖于线上渠道的行为数据。通过使用APP中点击按钮和浏览页面数据,并通过时间、渠道、交易方式、地理位置等维度分析,可真实反映客户偏好哪些产品、哪些活动、哪些优惠措施、以及线上触点时间和触发事件等。

例如,可以通过分析APP的点击热力图、留存时间、打开次数等行为数据,来了解客户偏好功能和偏好程度,可做前置性服务预测。如历史有购买理财产品、近期多次浏览过理财购买页面的客群,可作为理财产品售卖的Top1的潜在转化人群。在某一城商行案例中,该类客户成为新理财客群的实际转化率在30%左右。通过分析客户访问频次、访问时段、访问事件、交易频次、交易周期,交易业务类型、参与活动类型,明确客户与移动端渠道的固有交互触点,形成线上客群的产品/服务层级、交互触点细粒度以及触发策略。如:在中午12:00-13:30推送短信活动信息或者APP内活动信息,比上午9:00-10:00期间推送的有效触达率提高一倍。此外,地理位置分布统计,能够较为精准地知道已有客群在分/支行网点的周边分布情况,从而对于各分/支行特色的产品/服务可以直接推送APP内消息、短信触达或引流至线下场所。

对于代操作客群,本身不是移动端敏感客户,主要对其偏好办理的业务品类和交互触点规则进行分析,从客户经理代操作的周期、频次、业务类型,对该群体进行产品/服务分级和交互触点(网点位置、到访时间、办理业务类型)预判。如新上线一款理财产品,希望在网点做活动售卖,可以根据客群的经常办理业务类型、网点位置、到访时间进行活动位置和时间设计,活动触达客户群体数量可以提高1~2倍。

基于行为数据分析的公认价值,是针对产品迭代和用户体验提升。对区域银行而言,受制于产品同质性化、业务流程合规性,可撬动资源有限,无法像大行和互联网巨头一样以多样性、收益高、效率快作为竞争优势。所以,与交易数据相比,有些弱相关关系的行为数据的作用更多在于,帮助线上/线下渠道进行客群分层前置性服务趋势判断。

当然,了解真正线上用户的客户体验和产品差异性偏好同样具有重要意义,是区域银行为未来潜客更好提供服务的基础衡量标准,必须要重视起来。

No. 2 发力线下优势精准挖掘线下渠道场景和交互触点

区域银行优势在于覆盖地方区域,且网点分布较多,尤其是乡镇地区布点广泛。区域银行大量客群居于线下,那么线下客群如何洞察?合作资源如何有效选择?交互触点有哪些不同?回答了这些问题就能解决如:区域银行信用卡冷启动发卡,即使是虚拟卡发行,最有效的触达方式依然是线下MGM活动方式,但投入了大量的成本和资源,该如何选择活动区域、如何设计活动激励措施、什么时段开展、怎么定位客群、后续转化如何监测等问题。

  • 线下客群洞察

可以采用特定区域地理围栏、入口处安装WiFi探针、人脸识别设备等方式采集线下客群数据,将线下客群行为数据化:如明确定义出何时到访、办理何种业务、出入频次、参与线下活动类型、生活消费需求触点等。结合一方交易数据,基于产品/服务偏好、常出入场所、喜欢的触点渠道和营销激励,形成线下to线上经营的闭环路径。

如某农商行的真实案例中,利用所覆盖区域市民的公交出行普遍需求,在其手机银行端上线了优惠出行的服务产品:通过APP端电子公交卡支付公交车费,可享受大力度额优惠,同时还配有抽红包等活动,这次活动在3个月左右时间将手机银行用户量从30W左右增加到60W。这就是一个很好的结合线下人群出行需求洞察+线上支付+区域资源的场景,场景定位好后并没有用特别高大上的启动营销活动,而是由客户经理到公交站派发产品宣传单。所以,线下客群洞察能够支撑丰富并量化场景定义中交互触点,例如购买线上流量、出行服务、教育缴费等触点,并可以通过客群画像量化哪些触点优先有效。

  • 线下合作场选择

通过对各网点、合作商场、商户、超市、覆盖社区、学校等场所的客流行为轨迹、客流画像、网点交叉区域、周边配套设施(如社区类型、交通枢纽等)、竞品情况等进行量化打分,同时结合历史线下营销活动类型、效果信息,给出各合作机构的选择画像(如下),进而对后续营销活动选择区域、预估目标客群、营销产品匹配提供衡量标准。

Markdown

Markdown

真实的活动场景中,区域银行往往是活动举办完成后,才能发现A商场比B商场带来的客户转化高,其实完全可以基于已成熟的算法工具(如上),输入要合作商场位置和历史活动信息,输出评分值和洞察画像,预测投入产出效果和转化客户群体目标数量,一方面指导活动目标设计;另一方面在落地合作场所选择上提供有力的依据。

No.3 线上线下数据链路建立数字化场景运营体系

通过线上、线下行为数据和业务数据的打通,进行数字化场景的定义。定义场景中,业务侧数据主要定义客群特征和业务周期、产品/服务差异匹配;行为侧数据则为交互触点定义提供依据,如:固定缴费行为、触发活动事件(生日事件、开学事件、社保缴纳等)、常出入场所等。

定义过程可参考如下示例,对区域银行中等资产的中年人群:基础金融服务(消费支付、缴费、转账、短期储蓄等),以线上渠道为主,结合线下活动触发辅助;中端金融服务以线下事件触发为主,转线上服务。

Markdown

但要真正实现数字化场景构建,离不开工具搭建和数据能力补充,需要有支撑线上、线下行为数据获取分析、与业务数据打通、客群视角场景定义、合作场选择、转化活动事件效果跟踪等的平台工具和经营体系。如下所示:通过搭建线上/线下数据采集、分析和效果跟踪工具,构建客群场景化经营体系,实现手机银行APP客群+线下网点接触+线下活动转化的经营场景路径。

Markdown

No.4 区域银行该如何做?

通俗的讲,建立数字化场景运营体系首先是采集到用来量化场景的数据,其次是将各类数据串连起来构建有用的场景,最后是对场景落地效果进行监测和迭代。整体建设路径可以分两部分进行。

一是线上/线下运营平台并行建立:实现产品、客群、交互触点的行为量化数据采集和运营体系的建立。

TalkingData移动统计分析平台,采用SDK方式实现对手机银行、直销银行、微信银行等线上平台从访客、到用户再到客户的全行为周期交互数据的采集和分析,同时嵌入3A3R的互联网运营指标衡量体系和场景洞察方式。实现从行为数据侧识别场景,沉淀量化运营指标。

区域银行传统经营区域更接近客群,地域性情感认同更高,对线下运营需求高,通过客流运营平台/智选搭建,对到网点客流的人本行为交互数据进行采集,实现对线下网点运营能力的监测、合作场所洞察选择和客群线下交互触点的捕捉量化能力。

二是线上与线下链路打通,搭建场景定义和落地效果监测工具,并建立行之有效的运营体系。

以设备TDID+客户标识ID作为打通线上/线下业务和行为交互数据的关联纽带,形成全渠道视角的用户运营平台,利用标签的形式有效地给场景定义提供了量化的客群构建、产品/服务匹配和触点结合。

区域银行客群体量与大行相比差距并不大,以大体量农信来说,线上客群可以高达600W左右。为了基于定义的场景快速的落地获客/活客,应搭建营销闭环平台,从业务视角实现各类活动流程可视化设计、活动目标设定、多活动并行实施、活动效果监测和迭代。

此外,基于多年的行业经验,TalkingData已有成熟的客户经营闭环体系,能够帮助团队快速搭建运营体系,形成客户构建-场景定义-活动设计-效果跟踪迭代的场景落地路径。

总体而言,区域银行不适合模仿大行或互联网巨头砸重金挖掘场景,也不适合简单模仿较好区域银行的场景,而是应该结合其区域化的金融服务优势和客群特征,以数据驱动和工具利用构建有效的、差异化的线上线下融合场景,做好区域客户经营,提升业务目标。希望通过本文的分享能够给大家提供一些解决问题的思路。

推荐阅读:

券商转型互联网财富管理的三大核心方向

智慧商业,数据之选

证券行业移动App行为数据研究的商业价值

Markdown

重磅丨2018世界杯热点报告

作者:TalkingData

刚刚结束的俄罗斯世界杯为全世界球迷带来了四年一度的足球狂欢。与往届世界杯相比,移动直播应用的参与为球迷观看比赛提供了新的平台,而看球时点一份外卖则成为了很多球迷夜宵的新选择。在《2018世界杯热点报告》中,TalkingData与美团、网易新闻合作,盘点本届世界杯对于移动应用的影响,描绘移动直播平台观赛人群画像,梳理世界杯下的球迷生活变化。

Markdown

世界杯开赛刺激移动直播应用用户增长

作为2018俄罗斯世界杯中国地区转播版权方,央视旗下两款直播应用——央视影音、CCTV5在世界杯开赛后迎来用户数迅猛增长,CCTV5应用周覆盖指数连续两周增速超过50%,而新媒体版权方咪咕视频应用周覆盖指数增速同样超过10%。

在开赛两周后,世界杯直播应用周覆盖指数告别快速增长,用户规模趋于稳定。

Markdown

广告虽然略显洗脑但是有用

本届世界杯的一大热点话题是移动应用也玩起了洗脑广告无限轰炸的套路,知乎、马蜂窝旅行、Boss直聘都在世界杯转播中进行了广告投放。虽然广告内容引发吐槽,但是大规模的广告投放对于应用用户增长仍然起了正面作用,三款应用周覆盖指数整体保持正增长态势。

Markdown

冷门迭出引爆关注,日本队自带流量

德国、西班牙两队分别爆冷输给韩国、俄罗斯的对决是半决赛前最受关注的比赛,两场比赛战报在网易新闻客户端中浏览量最高。日本队虽然止步十六强,但其击败哥伦比亚的比赛位居赛事关注度第三,而出局后整洁的更衣室又引发网友大讨论,关于日本队更衣室的讨论在世界杯新闻内容中热度最高。

Markdown

85后、90后男性是世界杯观赛人群主力

在俄罗斯世界杯移动端观赛人群中,26-35岁男性是占比最高的群体。足球仍然是男人的浪漫,世界杯观赛球迷人群中男性占比是女性人群的2.5倍。年龄分布中,26-35岁人群占比为49.9%,构成了观赛人群的主体。

Markdown

OPPO、vivo是世界杯观赛人群最常用安卓品牌

在世界杯观赛人群安卓设备品牌分布中,OPPO、vivo、华为居于前三位,OPPO、vivo品牌占比合计超过48%。安卓设备价格分布中,100-1999元是最受世界杯观赛人群欢迎的设备价位。

Markdown

德国队三十年老球迷占比最高

在阿根廷、巴西、德国等强队观赛人群中,英格兰队、巴西队最受女球迷青睐,法国队最受“钢铁直男”球迷欢迎。在各年龄段偏好中,19岁以下年轻球迷更喜欢西班牙、英格兰,而46岁以上老球迷更偏爱德国、巴西这两支传统豪强球队,86年的桑巴军团、90年的德意志战车是老球迷们永远的美好回忆。

Markdown

英格兰、法国比赛观众消费娱乐更为活跃

除视频、通讯社交外,游戏、金融理财、餐饮等类别应用在英格兰、法国比赛观众中覆盖率要高于其他球队。而在线下消费中,英格兰、法国比赛观赛人群在各消费类别中的活跃度也要明显高于其他球队观赛人群。

Markdown

搜索热度:看球、彩票、世界杯等关键词搜索量大涨700%+,毛豆、啤酒搜索量上涨超过40%,酒吧成为最热看球场所

Markdown

在家看球:比赛时段内送往住宅楼的外卖订单较平日上涨18%,男生最爱点炸鸡、烤串,女生则偏爱小龙虾、卤味

Markdown

梅西、内马尔等超级球星比赛的场次,夜间外卖较平日上涨17%

Markdown

酒吧看球:酒吧订单较平日上涨15%,清吧最受消费者欢迎,订单较平日增加18%

Markdown

出行+消费:世界杯期间,夜间周末出行订单较平日上涨18%,去往酒吧、KTV等娱乐场所的订单上涨14%

Markdown

 

简明数据科学 第四部分:简单线性回归模型

作者:TalkingData 张永超

在此系列之前的文章(见文末)中,已经讨论了关于统计学习的关键概念和假设验证相关内容。在本篇内容中,将进入线性回归模型的讨论。

在开始之前,回顾一下之前统计学习中比较重要的几个关键点:

自变量和因变量:

在统计学习的背景下,有两种类型的数据:

  • 自变量:可以直接控制的数据。
  • 因变量:无法直接控制的数据。

无法控制的数据,即因变量需要预测或估计。

模型:

模型本质上就是一个转换引擎,主要的作用就是找到自变量和因变量之间的关系函数。

参数:

参数是添加到模型中用于估计输出的一部分。

基本概念

线性回归模型提供了一个监督学习的简单方法。它们简单而有效。

但是,到底什么是线性

线性意味着:数据点排列在或者沿着一条直线或者接近直线的线排列。线性表明,因变量和自变量之间的关系可以用直接表示。

回顾高中时的数学课程,一条直线的方程式是什么呢?

y = mx + c

线性回归只不过是这个简单方程的表现。

上述公式中:

  • y是因变量,是需要估计或者预测的变量
  • x是自变量,是可控的变量,在这里属于输入变量
  • m是斜率,体现了直线的倾斜程度,一般使用符号β表示
  • c是截距,当x为0时,确定y值的一个常数

线性回归模型并不是完美的,它试图以直接来逼近自变量和因变量之间的关系。而近似总会导致错误,并且一些错误是无法避免的,是问题性质本身所固有的,这些错误无法消除,称之为不可简化的错误,真正的关系中,总是具有一定的噪声项,并且是任何模型无法减少的。

上述直接公式因此可以重写为:

Markdown

  • β0和β1是代表截距和斜率的两个未知常数。他们是参数。
  • ε是误差项。

简述

下面通过一个例子来说明线性回归模型的术语和工作原理。

费尔南多是一名数据科学家,他想要买一辆车。他想估计或者预测他最终必须支付的汽车价格。正好他有一个朋友在一家汽车经销商上班,费尔南多向这位朋友咨询了各种其他汽车的价格以及汽车的一些特点,他的朋友向他提供了如下的一些信息:

Markdown

  • make: 车辆品牌
  • fuelType:所使用的动力燃料
  • nDoor:车门数量
  • engineSize:发动机大小(马力)
  • price:最终的价格

首先,费尔南多希望评估他是否可以根据发动机大小预测汽车价格。第一组分析旨在回答以下问题:

  • 汽车价格与发动机大小有关吗?
  • 这种关系有多强?
  • 关系是线性的吗?
  • 我们可以根据发动机大小预测/估算汽车价格吗?

费尔南多进行了相关分析,相关性是衡量两个变量相关的程度。它是通过称为相关系的度量来衡量的,值在0和1之间。

如果相关系数是一个较大的数,例如 0.7 以上的数,则意味着随着一个变量的增加,另一个变量也会增加。也就说,相关系数体现了变量间“同向变化”情况。

费尔南多做了一些相关性的分析,绘制出了价格与发动机大小之间的关系。

他将数据集分割成了训练和测试两部分,其中75%的数据作为训练使用,剩下的作为测试来用。

他使用了一些统计性软件包构建了一个线性回归模型,该模型本身找到了汽车的价格和发动机大小间的关系,由此创建了一个线性方程。

Markdown

有了这个模型之后,就可以回答费尔南多想了解的几个问题了:

  • 汽车价格与发动机大小有关吗?
  • 是的,它们之间是有关系的。
  • 这种关系有多强?
  • 它们间的相关系数为0.872。是一种很强的关系。
  • 关系是线性的吗?
  • 存在一条直线可以拟合。一个良好的价格预测可以由发动机大小来决定。
  • 我们可以根据发动机大小预测/估算汽车价格吗?
  • 可以。

对于价格和发动机大小的关系显而易见,其实这个模型的最终表达式也很简单,如下:

price = β0 + β1 x engine size

模型构建与解释

模型

在上述内容中,原始数据集按照一定的比例进行了分割,产生训练集和测试集两大部分,训练集被用于学习或者找规律,最终创建模型,测试集被用于评估模型的性能。

费尔南多将数据集分割成了训练和测试两部分,其中75%的数据作为训练使用,剩下的作为测试来用。他使用了一些统计性软件包构建了一个线性回归模型,该模型本身找到了汽车的价格和发动机大小间的关系,由此创建了一个线性方程。

Markdown

通过从训练数据集上进行学习训练,费尔南多得到了如下的一些结果:

Markdown

对于最终的模型来说,其估计参数值为:

  • β0:-6870.1
  • β1:156.9

从而得到线性方程为:

price = -6870.1 + 156.9 x engine size

解释

Markdown

该模型最终提供了在特定发动机大小的情况下预测汽车平均价格的方程式,也就意味着:

发动机的大小增加一个单位,将使得汽车的平均价格提高156.9个单位。

评估

模型创建好了,但是模型的稳健性还需要评估。我们如何确定该模型能够预测令人满意的价格?这项评估分两部分完成。首先,测试模型的鲁棒性。其次,评估模型的准确性。

费尔南多首先在训练数据上评估模型,他得到了如下的统计数据:

Markdown

有很多的统计数据,当前仅关注红色框标注的部分,在假设检验章节中有过讨论,使用假设检验评估模型的稳健性。

H0 和 Ha需要被首先定义,如下:

  • H0(空假设):x 和 y 之间没有任何关系,即发动机的大小和车辆价格没有关系;
  • Ha(替代假设):x 和 y 之间存在某种关系,即发动机大小和车辆价格之间存在关系。

β1:β1 的值决定了价格和发动机大小之间的关系。如果 β1 = 0,则他们之间没有关系,否则存在关系。而从上述得到的参数中可知,β1 = 156.933,说明到价格和发动机大小之间存在某种关系。

t-stat:t-stat值是系数估计值(β1)远离零点的标准差。其值越远离零越强化价格和发动机大小间的关系,从上述参数中可以看到t-stat是21.09。

p-value:p值是一个概率值。它表示在空假设为真的情况下得到给定t-statistics的机会。如果p值小,例如<0.0001,这意味着这是偶然的并且没有关系的概率非常低。在这种情况下,p值很小。这意味着价格和引擎之间的关系并非偶然。

通过这些指标,可以得到的结论是:空假设完全不存在,并且接受替代假设。车辆的价格和发动机大小之间存在着稳定的关系。

这种关系已经确定,但是其精度如何呢?为了能够感受模型的准确度,一个名为R-squared或者决定系数的度量非常重要。

R平方或确定系数:为了理解这些指标,首先将其分解其组成部分。

Markdown

  • 误差(e)是实际y与预测y之间的差异。预测的y表示为ŷ。每个观察都会评估这个错误。这些错误也称为残差。
  • 然后将所有残差值平方并相加。这个术语被称为残差平方和(RSS)。RSS越低越好。
  • R-squared的另一部分方程。为了得到另一部分,首先计算实际目标的平均值,即估计汽车价格的平均值。然后计算平均值和实际值之间的差异。然后将这些差异平方并添加。它是总和的平方(TSS)。
  • R-squared a.k.a决定系数计算为 1- RSS / TSS。该度量解释了模型预测的值与实际值平均值之间的差异部分。该值介于0和1之间。它越高,模型可以更好地解释方差。

在上面的例子中,RSS是根据三辆车的预测价格计算出来的。 RSS值是41450201.63。实际价格的平均值是11,021。 TSS计算为44,444,546。 R平方计算为6.737%。对于这三个具体数据点,该模型只能解释6.73%的变化。还不够好!!

但是,对于费尔南多的模型来说,其训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。

结语

费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据没有得到解释。有改进的余地。如何增加更多的自变量来预测价格?当添加多于一个独立变量以预测因变量时,需要创建多变量回归模型,即多于一个变量的模型 —- 多元回归模型。

相关阅读

TalkingData&链塔智库联合发布《2018中国区块链移动应用发展研究报告》

7月10日,智库BlockData与数据智能服务平台TalkingData联合发布《2018中国区块链移动应用发展研究报告》,展现2018中国区块链APP应用全景。

据悉,《2018中国区块链移动应用发展研究报告》(以下简称《报告》)调查覆盖中国7亿活跃移动互联网用户,从超过12万款热门应用中选取区块链App,从区块链App应用方向、项目类型、人群画像等多个维度展现中国区块链移动应用发展现状及创业生态,并对典型区块链APP进行重点分析。

Markdown

区块链企业高度集中北上广深杭

《报告》显示,从地区分布来看,区块链企业主要集中在北上广深杭,从行业分布来看,金融服务及企业服务是主力军。近几个月来,区块链企业融资增多,增速超过 P2P 金融及移动支付等 Fintech 技术。

根据技术发展情况,我国区块链应用主要场景包括:金融领域,企业服务,社交,文娱传媒,硬件,物联网,医疗健康,公益慈善,交通运输,人工智能,电商,房地产,教育,农业,工业,能源等领域。

《报告》强调,基于区块链技术的DApp尚处于早期探索状态,目前没有大规模实际应用价值的DApp出现,区块链相关App还是市场上的主力军。

和加密货币相关的App更受关注

链塔数据库收录了90款区块链相关App,根据苹果商店的分类划分,新闻类App最多共计38家,占比42%;财务类App共有17家,占比19%;参考类App有10个,占比11%;实用工具类App有12个,占比14%;工具类App共计6个,占比7%;其余合计占比7%。大部分的App还是和新闻和财务相关,说明这两个领域比较热门,符合行业状况。

Markdown

在部分新闻类App中,火球财经和金色财经的季度用户规模均超过20K,币头条的季度用户规模超过了10K。从使用率(活跃用户规模/安装用户规模)来看,贝壳头条最高为10.33%,说明下载贝壳头条的用户使用频率较高,而其他App的使用率大概在4%。

Markdown

其他类别的App中,OKEx的季度用户规模最大,超过了70K,但使用率不高,说明用户下载后并不是使用得很频繁。MyToken和OKCoin的季度用户规模超过30K。这三个App都是和加密货币交易相关,说明用户对此类App感兴趣。

区块链App人群以男性为主

区块链App使用人群中,男性人群占比超过70%,男性占比要比移动互联网用户中男性比例高17.7%。

Markdown

区块链App使用人群中,26-45岁人群占比合计超过70%,构成区块链App使用的主力;46岁以上人群占比要低于移动互联网同龄用户,中老年人群对于区块链应用的兴趣要低于青壮年人群。

区块链App人群更关心车子房子票子

相比于移动互联网用户整体,区块链App人群的应用兴趣更多的集中在汽车、房产、金融理财、家居等领域,对于物质条件的追求更为直接。

Markdown

而在网购、影音、生活等类别应用上,区块链App人群的兴趣要低于移动互联网用户,手机游戏是区块链应用人群最喜欢的娱乐方式。

区块链App人群偏好金融、运动类消费场所

与移动互联网用户相比,区块链App人群更加偏好金融、运动健康类线下消费场所,对于资产管理、个人健康管理更为热心。

Markdown

区块链App人群在经济发达地区集中度更高

在地域分布中,区块链App人群主要集中在广东、浙江、江苏、山东等东南沿海经济发达地区。在城市分布中,北京、深圳、上海、广州这四个一线城市包揽了前四位置。

区块链App人群在北京的工作地更多的集中在中关村、上地、望京、国贸、金融街等互联网、金融公司密集区域。而在上海的工作地分布区域更为广泛,并没有明显的区域聚集中心。

Markdown

Markdown

区块链App人群更偏好中高档价位手机

Markdown

相比于移动互联网用户,区块链App人群所使用的安卓设备中2000元以上价位占比更高,2000-3999价位占比要高出11.3%。区块链App人群更加偏好中高档价位手机。

在区块链App人群安卓设备品牌占比中,OPPO、VIVO、华为包揽了前三位。三者相加占比已超总体50%,市场集中度相对较高。

Markdown

需要完整版《2018中国区块链移动应用发展研究报告》的用户,可以关注链塔智库(公众号ID:liantazhiku)或网站,均可免费阅读完整版报告全文。

券商转型互联网财富管理的三大核心方向

前言

2018年已经过半,随着券商佣金费率不断降低,国内去杠杆、美联储加息等多种因素导致的市场行情不佳、IPO业务及承销业务的持续低迷,券商经纪业务从传统通道服务向财富管理模式转型,俨然成为国内券商的当务之急。此外,当今互联网高速发展,大数据、人工智能等概念纷至沓来。金融科技又将如何助力券商转型互联网财富管理? 这一议题也引发了越来越多的券商行业从业者的思考。
TalkingData 依据自有数据,结合服务多家券商的咨询经验,形成此次报告,结合金融科技的应用,分别从用户、产品、服务三大方向,为券商转型互联网财富管理提供相关建议和新的启发。

互联网财富管理规模究竟有多大?转型空间还有多少?

据波士顿咨询公司发布的2018年全球数字财富管理报告显示,截至2017年底中国的互联网财富管理规模已达到6千亿美元。与五年前的百亿级美元管理规模相比,年化增速已超过50%。同时,截至2017年中国个人持有的可投资资产总额高达188万亿人民币,可投资资产超过1000万的高净值人数更是高达187万人。
在互联网行业飞速发展的今天,高速增长的个人财富带动了大量的线上金融资产配置需求,这无疑给互联网财富管理市场的发展创造了巨大空间。

目前互联网财富管理的竞争格局如何?

随着互联网财富管理市场规模的迅猛发展,市场上逐渐显现出如下四类主流互联网财富管理的竞争格局。其从客户、产品、服务三个方面显现出的特点也不尽相同。
注:点击可查看高清大图,下同
Markdown

券商开展互联网财富管理转型的现状

  1. 主流券商互联网化已趋于完善
随着2014年国金证券推出“佣金宝”,证券互联网元年的正式开启,券商先后经历了2015年的互联网导流、2016年的移动APP打造、2017年的智能化浪潮阶段,目前移动APP已成为券商零售业务新模式和互联网财富管理的重要载体。
TalkingData基于数据角度对目前券商APP活跃度进行评估,发现互联网化起步较早的券商,趋于完善的产品功能和运营,较优的APP活跃度都意味着这些券商的互联网化趋于完善。线下交易的线上化,为其逐步积累了大量的线上投资客户,同时也是为其互联网化财富管理的转型之路打下了坚实基础。
Markdown
  1. 转型之路的战略布局已开始
其实财富管理转型话题一直在券商行业引发诸多讨论和思考,不少主流券商也早已在不同方面对财富管理转型进行了战略布局。例如在内部架构方面,华泰证券重新构建了零售及财富管理、机构客户服务两大业务体系;国金证券撤销原经纪业务管理总部,成立了经纪业务执行委员会;广发证券新设立了私人银行部等。客户分层方面,中信证券对交易型和财富型这两类客户的服务各有侧重点,而国金证券也区分了普通投资者和专业投资者。投顾服务方面,华泰证券的财富管理体系以投资顾问为核心,投资顾问占从业人员的比例高达 25.43%,行业排名第一。
  1. 转型之路仍是机遇与挑战并存
尽管券商的互联网化逐渐趋于完善,也已开始财富管理转型的战略布局,但对比目前拥有一定市场规模的主流互联网财富管理机构,券商其自身还是存在如下优劣势。
Markdown

数据时代券商转型互联网财富管理的三大核心方向

结合券商转型互联网财富管理上自身的优劣势,其需要基于移动APP,着眼于客户、产品、服务三大核心方向,利用大数据科技手段,以服务客户为中心,给予客户投资前、中、后三阶段的完整投资生命周期体验,协助投资人实现全方位专业资产配置的财富管理需求。
  1. 客户方向

  • 客户认知重塑:打造全方位综合型财富管理品牌
现阶段证券公司主营业务收入仍是以代理买卖证券业务及证券承销与保荐业务收入为主, 客户认知上比较固化,投资者对券商的普遍认知还仍以股票交易为主,并非财富管理或理财。因此,券商需在财富管理市场中定位其核心竞争力,重塑客户的品牌认知,从而打造全方位综合型的财富管理品牌。
  • 客户需求洞察:通过KYC描绘精准、多维的客户投资画像
客户需求洞察,做到企业比客户更懂客户,向来是提升业务运营的坚实基础, 同样也是提供针对性综合服务最有力的切入点。
TalkingData建议从客户的资产量、交易行为和用户特征三大方面着手,建立多维度交叉立体的KYC数据体系。全方面了解客户特征,洞察客户投资需求。例如TalkingData AE5.0用户洞察功能可以协助传统券商实现数字化KYC,目前其已有效协助国泰君安证券、民生银行等多家金融机构,成功构建KYC数据分析平台,利用数字化手段勾勒出投资客户画像,为企业后续精细化运营打下坚固的基础。
Markdown
  • 客户需求洞察:利用大数据科技精准定位高净值客户群体
TalkingData 可以按照客户需求,通过地理聚集原理,建立数据模型,利用机器学习加工某个特定区域的高净值人群设备,再将这些设备通过TDID等信息打通数据,以最终实现帮助客户精准定位到高净值客户群体。
Markdown
  1. 产品方向

金融产品多元化:打造全品类资产配置并通过KYP定位产品优势
  1. 提供风险收益比更高的固定收益产品:专业的客户资产配置中,固定收益类产品所占比例通常较大。且以固定收益类产品作为与客户交流的起点,更容易得到客户的认同和接受。
  2. 包装创新金融产品:金融市场不断发展,监管环境不断变化,也应面向市场不断推出新的金融产品。包装成功的创新金融产品也是抢占市场流量的有效方式之一。
  3. 打造综合资产配置概念:摆脱传统券商单纯炒股的资产保值理念,结合更多不同理财型资产类别,实现多元专业的金融资产配置。
  4. 通过动态竞品分析软件实现KYP(Know Your Product),动态跟踪市场上金融产品全面数据信息并进行分层排序,从而迅速掌握市场金融产品情况,实现更精准专业的资产配置,利于调整产品运营的策略,完善自身金融产品多元化。

三. 服务方向

提供差异化服务:线上线下联动,搭建以客户为中心的专业服务体系
  1. 发力投资者教育
Markdown
  1. 建立投后管理服务
传统的投后管理多以客户发出指令或提出服务需求、理财顾问被动响应的模式为主。
而做出差异化投后服务,可变被动为主动。 利用“智能客服” 去主动触达客户,解决客户日常基本咨询问题甚至投资收益跟踪提醒,释放出更多人力,以提供定制化资产配置、法务及税收等方面的咨询服务。
TalkingData AE5.0营销活动管理是国内首个将营销闭环整合至移动分析平台的行业产品,其不仅能追踪并分析营销活动效果,同样在投资者教育和投后管理服务方面也可以起到相似的作用。协助券商客户追踪并分析投资者内容教育方面的转化,评估投后管理服务的推送点击情况及客户满意度,进而不断帮助业务人员优化财富管理的服务体系。
Markdown
“智选”是TalkingData与腾讯云联合,依托于各自强大人本数据和地理信息数据,结合经典模型和预测算法,对特定区域周边的人群进行整合分析的数据智能平台。券商可以借助智选平台,整合各线下营业网点周边的客群特征、客群需求、客群流量等,进而调整网点经营和营销方面的策略,以达成提升线下网点服务质量的最终目的。
Markdown
更多财富管理转型咨询,请联系——
400-870-1230
support@tendcloud.com
Markdown

TalkingData崔晓波:“成效合作”是检验“数据智能”的最终标准

✎导读

数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

Markdown

近年来大数据和人工智能领域正发生深刻的进化,继2016年横空出世的阿尔法狗(AlphaGo)击败了围棋世界冠军李世石后,阿尔法元(AlphaGo Zero)又以100比0的战绩击败了阿尔法狗;另一重要事件是2018年3月科技独角兽Palantir Technologies 获得美国军方8.76 亿美元合同。

以上事件可以说“数据智能”已经发展到令人惊奇的阶段,一方面阿尔法元(AlphaGo Zero)可能证明“智能”正在迈过“数据”的桎梏;另一方面大数据企业赢下大单,也从侧面说明“数据智能”已经能够对现实世界产生重要影响。

回顾2011年TalkingData创始人兼CEO崔晓波决心在大数据领域创业时,彼时对大数据的未来还只是判断。“那时候最经典的一个讨论,我们几个创始人认为智能手机就是以后数据最重要的一个点,不仅能够把线上跟线下的数据打通,而且是历史上第一次人随身携一个测量仪,忠实地记录人物线上所有的行为、线下所有的足迹,当时我们都觉得机会来了。”庆幸的是,崔晓波赌对了。

随后大数据企业也如雨后春笋一般成立起来,在此后发展的过程中,大数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

经过7年发展,崔晓波希望TalkingData突破传统的数据源公司、数据软件公司、咨询公司模式,以“数据智能服务商”为定位,基于开放连接的理念构建整合数据产业链各方资源的平台生态。如果简单一句话解释TalkingData新商业模式,就是TalkingData希望自己不是上文提到三种模式囊括的99%玩家。

成为大数据领域1%的玩家,崔晓波在如何思考大数据的未来发展和构建TalkingData的明天?在崔晓波和亿欧的交流过程中,他提到两点认知转变:

第一是未来数据合作的核心是连接,而不是拥有

在崔晓波看来,数据拥有并不能解决大数据实际应用中的效果问题。比如单纯的数据交易不是需求决定的市场行为,数据交易会造成数据量大但却缺乏关键数据;另一方面是数据来源少,会造成数据偏差,比如对餐厅门店的第二天客流预测,如果有经营数据、财务数据、交通数据,惟独缺少天气数据,也会让预测出来的结果不准确。因此拥有多少数据不重要,关键的是能连接多少数据。

但数据因为涉及隐私保密、安全等缘由,所以数据的交易和流动都是十分谨慎的事情。为此TalkingData推出SDMK数据智能市场和SmartDP数据智能平台解决数据的流动和应用的问题。

SDMK数据智能市场接入各渠道数据源,打破各企业间的数据孤岛,帮助企业连接更多的数据。SDMK数据智能市场一个非常核心的一个框架是OPAL(Open Algorithms),又名算法开放库,“这个技术框架的核心是不流动数据,只流动算法。”据悉这个由MIT连接科学研究所发起的项目,TalkingData是唯一一家参与的中国企业,在美国有VISA、IBM、NEC等等也在参与。

同时TalkingData在上面提供数据服务、数据工具、数据模型(预置了300多个在领域里面验证的模型)以及数据应用去承载落地,并提供统一计费和计量的模块。

SmartDP数据智能平台是为各方开放提供面向业务场景的数据智能应用与服务。“通过SDMK实现数据聚合还不够,从数据的准备到自动化特征工程、模型生产和管理探索、数据目录的管理等还有很多过程。”SmartDP数据智能平台正是为企业快速上线大数据应用而开发的平台。

SmartDP数据智能平台还包括知识图谱和机器学习等算法和模块,TalkingData可以通过数据一键线性回归处理数据和模块拖曳的方式,迅速在企业的模型商店里面上架应用。

第二是大数据企业应该为效果负责,成效合作是未来趋势

这个转变源于崔晓波去美国参观全球大数据标的企业Palantir,崔晓波问Palatir的合伙人:“为什么你们的客户愿意付那么多钱?”那个合伙人回答,一会我要去签一个1亿美金的单子,是一家石油采集企业希望利用大数据做地质灾害和天气预测的项目。他们花费半年时间做出的模型,能够提前20分钟发出灾害预警,帮助油田在灾害发生前提前关闭油井,降低的损失是巨大的。“Palatir不是卖软件不管结果或者出点子的咨询模式,而是真的为效果服务,因此客户愿意付出成本。”

崔晓波提到国内企业也正在发生这种需求转变,“大概2017年,大量的企业过来找我们说,现在有紧迫的转型升级压力,真的要把数据用起来了,但是他们最大的疑惑是大数据能不能产生实际效果。”

TalkingData的策略是把客户分为几层:第一层是KA(关键客户),这一部分是可以考虑成效合作,因为投入的资源也很大,要确保成功率,要考量很多因素。第二类是叫PA,这类主要提供的是标准化产品、标准化服务。第三类是长尾的客户,是用大量SaaS和DaaS的服务去覆盖。

目前这种KA客户在TalkingData内部有10多家,每家的客单价都是千万元以上。“对KA客户我们完全倾向于成效合作,如果结果好就多分钱,结果不好可以少要钱,甚至承担损失,因为我们觉得这就是未来。”

以TalkingData服务的客户耐克为例,耐克是线上和线下获客比例更占一半。耐克希望帮助他们提升线上的销售成绩。因此邀请TalkingData从数据系统的搭建、日常运营中怎么分析数据,如何将数据应用到业务中,甚至到活动的策划、流量的对接,做出一整套产品方案。“当时我们就提出来,TalkingData可以帮耐克增长线上销售的比例,并按线上销售收入的比例分成,他们也同意。这就是非常典型的成效合作。”

在构建好以SDMK数据智能市场和SmartDP数据智能平台为基础的大数据平台,以及确定未来的商业模式后,崔晓波提到TalkingData会进军各个垂直领域,目前零售、营销、金融和智慧城市是TalkingData重点聚焦的数据智能应用领域。同时TalkingData也发布针对这四个领域的产品,包括联手腾讯云发布的面向线下品牌商的数据智能产品——智选、移动大数据人口统计应用——“统计魔方”、品牌广告价值分析平台TalkingData Brand Growth以及TalkingData金融科技产品。

就像SaaS领域对标市值千亿美金的Salesforce一样,国内大数据领域也在寻找谁是对标百亿美金估值的“Palatir”。目前超过独角兽估值的TalkingData,尽管在某些方面学习Palatir,但是我们依旧能发现二者的不同。提出“人本数据”的TalkingData,认为基于人的统计模型实际上会影响到上面所有的行业和商业,比如TalkingData的智慧城市也是基于人在城市的商业生活展开研究。可以说,TalkingData正在走出一条和而不同的路,未来值得关注。

注:本文源自亿欧网

北卡州立大学与中国人民大学签署校级合作协议

2018年7月3日上午,北卡罗来纳州立大学与中国人民大学正式签署校级合作协议,致力于专业数据人才的教育项目共建。

北卡罗来纳州立大学拥有深厚的统计分析人才教育积淀,同时也是分析软件SAS的诞生地,在专业数据人才的培养上,除了传统的理论学习,更加注重数据的实战训练。其首创的数据分析硕士项目(Master of Science in Analytics,简称MSA)被2014年《哈佛商业评论》评为全美“大数据”专业榜首,常年居于北美专业硕士就业率和毕业生平均薪资排名前列。

中国人民大学在统计学学科底蕴深厚,位列高校前茅,其为迎接大数据时代挑战而成立的统计与大数据研究院致力于构建世界一流的统计与数据学科,在学科前沿原创性研究与高水平学科交叉人才的培养上更具前瞻意识。

本次合作双方旨在推动数据人才教育,通过引入领先的专业数据人才学位项目,结合TDU提供的数据实训平台与数据实战行业指导等内容,共同推动国内专业数据人才的培养进程。

Markdown

Markdown

推广期,如何准确衡量渠道的质与量?

对于开发者而言,渠道推广是获客的重要一步。为了统计不同渠道的推广效果,渠道分析是开发者的必然选择。

Markdown

渠道虽然有免费和付费之分,但在推广期都会消耗开发者成本。由细分领域组成的免费长尾渠道,虽流量不可小觑,但耗费大量发包时间。而涉及到分层或买量的头部渠道,却是资本和时间双重成本的叠加。虽然开发者付出了时间与金钱,但并不意味着,此举就是有用功。

开发者无论接入第三方数据分析服务还是自行跑码统计,通过有效指标评估投放渠道质量,是优化渠道、控制成本的有效手段。作为是国内领先的第三方数据智能服务商,TalkingData App Analytics的渠道分析功能,可帮助开发者收集、处理、分析,形成客观的渠道数据报表。使开发者掌握各渠道表现,敏捷优化/改善推广方案,持续发现流量洼地降低成本。

Markdown

渠道分析功能图

如何使用渠道分析功能

App 开发时,集成TalkingData App Analytics SDK即可获得渠道分析功能,帮助开发者实时了解各渠道从用户获取再到参与留存、效果转化等诸多环节的数据表现。

Markdown

TalkingData App Analytics

渠道分析功能特点

1.全平台兼容

支持全部开发平台,无需开发者集成多个SDK,不增加包体负担,全渠道数据一览无余;

Markdown

2.数据客观性

①TalkingData是国内领先的第三方数据智能服务商,各渠道实时数据更客观;

②针对渠道带来用户生产的数据,拉长考察时间区间,更有利于对渠道质量甄别;


渠道分析demo演示

3.多维度节约成本

①无需开发成本,集成即用。数据服务稳定,免去开发者维护成本;

②推广渠道质与量双层优化,降低开发者发包时间、推广成本;

TalkingData App Analytics的渠道分析功能,使开发者以数据为依据,抛开个人喜好,把推广重点关注在真优质渠道,而不是局限于有声量的头部渠道和免费的长尾渠道。让开发者结合渠道数据有针对的调整和优化推广策略,助力开发者推广期准确衡量渠道质与量。

Markdown

简明数据科学 第三部分:假设检验

 

昨天的文章中,我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等,今天我们再来看一看机器学习的基石概念之一假设检验

Markdown

著名的物理学家爱德华·特勒曾经引用过:

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题

概念

假设是指用有限的证据作出的想法,它是进一步调查分析的起点。该概念非常简单,但是在实际应用中很强大。在日常生活中,通常按照如下7个步骤进行:

  1. 做出假设;
  2. 初始状态设定;
  3. 确定替代的问题;
  4. 设置验收标准;
  5.  进行基于事实的测试;
  6. 评估结果。评估是否支持初始状态?确定结果不是偶然的?
  7. 达到以下结论之一:拒绝原来的位置以支持替代位置或拒绝原始位置。

Markdown

以一个故事来进一步解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇,这个小镇有其独特之处是,它被称为巫术博物馆。即使现在,那里也有人声称是巫师。伊西尔德和甘道夫就是这样的人。

他们声称自己具有千里眼的超能力,能够透视任何物体,于是一些研究人员想要验证他们的能力,让他们玩一种叫做透视纸牌的游戏。

该游戏的规则如下:

  1. 伊西尔德和甘道夫随机从四副扑克牌中选择10张纸牌;
  2. 他们必须确认每张纸牌属于那副牌;
  3. 该测试每次重复10次。

在进行此次测试验证之前,已经对正常人进行了测试,得到的结论是正常人能够预测正确的平均次数在6次左右。这个就是本次假设检验的基础,而本次假设检验的目的是统计确定伊西尔德和甘道夫是否是巫师。

第一步:做出假设

不同种类的假设检验需要做出不同的假设。而假设与数据的分布、采样以及线性有关。一些常见的假设如下:

  • 分布: 每种数据都会遵循特定的分布,需要掌握数据中的规律。许多自然发生的数据点如股票市场数据、人体重量和高度、在酒吧喝酒的人的薪水等等都近似正态分布。正态分布只是意味着很多观测值都在中间位置,较少的观察值大于或小于中间值。中间值也称为中位数。
  • 采样: 假设为测试采样的数据是随机选择的,没有偏见。

对于上述透视纸牌游戏,以下假设是正确的:

  • 在透视卡牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为这些纸牌是随机选择的。随机选择纸牌意味着将被挑选的十张纸牌中的每一张都具有被选择用于测试的相同概率。
  • 在该问题中,纸牌没有偏见。

第二步:空假设

空假设是假设验证的初始情况,也就是当下的状态,是拒绝或者失败的立场,在整个假设验证的过程中处于需要验证和测试的位置。

对于上述纸牌游戏来说,空假设如下:

伊西尔德/甘道夫并没有千里眼的能力。

第三步:备用假设

备用假设和空假设正好是相反的。如果统计学获得的证据正好表明备选假设是有效的,那么空假设就是被拒绝的。

对于上述纸牌游戏,备用假设如下:

伊西尔德/甘道夫具有千里眼的能力。

第四步:设置验收标准

空假设和备用假设定义好之后,初始位置为空假设。现在需要设定一个阈值,我们知道一个普通人,即不是巫师的人会在10次中得到正确的六次。如果伊西尔德和甘道夫能够在一次测试中预测超过六张正确的纸牌,那么有更多的证据表明他们确实可能是巫师。有一种度量评估方法叫做t-统计,t-统计估计值远离备选假设越多越合理。

假设检验结果可能会出错。有四种可能的情况:

  1. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们是名巫师;
  2. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们不是巫师;
  3. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们不是巫师;
  4. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们是名巫师。
  5. 测试的结果可能显示结论1和结论2是正确的,结论3和结论4是无效的。

如果结论3属实,这样会导致空假设失效,属于一种误报,此类情况也称为Ⅰ型错误;

如果结论3无效,这样会是的空假设属实,属于一种错误的否定,此类情况称为Ⅱ型错误。

类型所有的统计验证,假设验证也必须处理不确定性,也就是必须处理概率,而概率并没有绝对的。

对于概率来说,需要设定概率层级,以便确定发生I型错误的机会,这个水平被称为显着性水平,使用α表示它。 α越低意味着测试越严格。相对较高的α意味着测试不是那么严格。 α的值是根据假设检验的性质设定的。典型值为0.001,0.05或0.1。

如果所观察到的结果仅仅是偶然的呢?如果这只是一个巧合呢?如果他们在测试进行的那一天刚好幸运呢?这种不确定性需要得到度量,假设检验有一个衡量这个不确定性的指标,p值是该度量。

p值表示为概率。这意味着它的值在0和1之间。p值是在假设为真的假设下偶然观察到的t统计量的概率。

对于透视纸牌游戏,决定如果伊西尔德可以正确猜测超过8张牌,那么备选假设是合理的。他可能确实是一位千里眼。 t统计量是8。

作为一名千里眼人是没有生命危险的。没有人处于危险之中。显着性水平设定为0.05。 α是0.05。

第五步:进行测试

通过重复十次的测试和验证,得到了一些结果。假设统计引擎最终得到如下的结果:

伊西尔德:

  • t-统计:8
  • P值:0.1

甘道夫:

  • t-统计:9
  • P值:0.01

第六步:评估结果

概率(p值)和显着性水平之间的比较产生以下结果:

对于伊西尔德来说:

  • t统计量为8,这意味着,他平均预测了八张牌,比正常人预测的要高。
  • p值是0.1,这意味着观察到的t统计数据归因于偶然的概率是10%。 p值很高。
  • 设定的显着性水平(α)是0.05,转化为5%。
  • p值大于设定的显着性水平,即10%> 5%。

第七步:得出结论

测试已结束,指标是已知的。谁是真正的巫师呢?

对于伊西尔德:p值大于设定的显着性水平(10%> 5%)。尽管平均而言,他已经预测了八张牌;从统计上,结论如下:

  • 伊西尔德的结论:没有实质证据反对空假设,空假设未被拒绝。

对于甘道夫:平均而言,他已经预测了九张牌。,p值低于设定的显着性水平(1%<5%);从统计上,结论如下:

  • 甘道夫的结论:有很好的证据反对空假设,空假设被拒绝,备选假设被接受。

最终,伊西尔德被否认,甘道夫很高兴。然而,伊西尔德也并不那个伤心,测试并没有确定他不是一位具有千里眼的巫师,空假设没有被验证是错误的,也没有证据表明备选假设是不成立的,这意味着没有足够的证据来确定空假设是无效的,在现实中,这样的情况普遍存在。

结语

假设检验是机器学习的基石概念之一,很多评估方法使用假设检验来评估模型的鲁棒性。在我们浏览本系列时,我们将深入探索其构造。

Markdown

简明数据科学 第二部分:统计学习的关键概念

在本系列的第一篇文章中,谈及了数据科学的关键概念和过程,在这篇文章中,会深入一点。首先,将定义什么是统计学习。然后,将深入到统计学习的关键概念,了解统计学习。相信我,很简单。

什么是统计学习

Markdown

根据维基百科,统计学习理论是从统计学和功能分析领域进行机器学习的框架。

机器学习是通过软件应用程序实现的统计学习技术的体现。

这在实践中意味着什么?统计学习是指使我们能够更好地理解数据的工具和技术。那么理解数据意味着什么?

在统计学习的背景下,有两种类型的数据: 可以直接控制功能的独立变量数据; 不能直接控制功能的因变量数据。

  • 无法控制的数据,即因变量需要预测或估计。
  • 更好的理解数据是通过独立变量来更多地了解因变量。例如下面的例子:

假设想根据分配给电视、广播和打印的广告的预算来衡量销售额。分配给电视,广播和打印的预算是可以控制的,但是无法控制的是他们将如何影响销售。于是想将无法控制的数据(销售额)表达为可以控制的数据(广告预算)的功能,揭开这种隐藏的关系。

统计学习则能够揭示隐藏的数据关系,不论是依赖的还是独立的数据之间的关系。

参数和模型

Markdown

运营管理中著名的商业模式之一是ITO模型,即输入-转化-输出(Input-Transformation-Output)模型,有一些输入,这些输入经历一些转化,然后创建出输出。

统计学习也适用于类似的概念,有数据输入,数据输入后经历转化,然后生成需要预测或估计的输出。

而上述的转化引擎部分称之为模型,一些估计输出的函数。

转化过程是数学相关的,将数据输入到特定的数学成分中以估计输出,这些数学成分称为参数

如下例:

决定某人收入的是什么?例如收入是由受教育程度和多年的经验决定的。那么估计收入的模型可能是这样的:

收入 = c + β0 受教育程度 + β1 经验

其中,β0和β1是表示收入函数中教育和经验的参数。而教育和经验是可控的变量,这些可控变量具有不同的含义,他们被称为独立变量,也称之为特征。收入是不可控变量,他们被称为目标

训练与测试(Training and Testing)

Markdown

当你准备异常考试的时候,都做些什么呢?研究、学习、消化知识点、做笔记、不断练习等。这些都是学习和准备未知测试的过程或者工具。

机器学习也使用类似的概念进行学习。数据一般是有限的,因此在使用数据时需要谨慎。模型的构建也需要进行验证,而验证的方法可以参考如下方式:

  1. 将数据集分割为两部分;
  2. 使用其中一部分作为训练数据,让模型从中进行学习,也就是说这部分数据对模型来说是可见的、已知的。这 部分数据集被称为训练数据
  3. 使用另一部分来测试模型,给予模型一部分未知的测试数据,来核查模型的性能。这部分数据称为测试数据

在竞争性考试中,如果准备充分,历史学习有效,那么考试中的表现一般也是令人满意的。同样的,在机器学习中,如果模型很好的学习了训练数据,那么在测试数据上也应该有良好的表现。

一般情况下,在机器学习中,一旦模型在测试数据集上进行测试,就会评估模型的性能。它是根据它估计的输出与实际值的接近程度来评估的。

Markdown

英国着名统计学家George Box曾经引用过:

“All models are wrong; some are useful.”

没有那个模型能够达到100%的准确度,所有的模型都有些错误,这些错误可以从两方面进行衡量

  • 偏差(Bias)
  • 方差(Variance)

下面使用类比来解释这两个维度:

Raj,是一个七岁的孩子,刚刚接触了乘法的概念。他已经掌握了1和2的乘法表格,接下来将挑战3的表格,他非常兴奋,开始了3的乘法的练习,他写下了如下的等式:

  • 3 x 1 = 4
  • 3 x 2 = 7
  • 3 x 3 = 10
  • 3 x 4 = 13
  • 3 x 5 = 16

Raj的同班同学Bob在同一条船上。他的书写结果看起来像这样:

  • 3 x 1 = 5
  • 3 x 2 = 9
  • 3 x 3 = 18
  • 3 x 4 = 24
  • 3 x 5 = 30

让我们从机器学习的角度来研究由Bob和Raj创建的乘法模型。

  • Raj的模型有一个无效的假设,他假设了乘法运算意味着需要在结果后面加1。这个假设引入了偏差误差。假设是一致的,即将1加到输出。这意味着Raj的模型低偏差
  • Raj的模型导致输出始终与实际相距1。这意味着他的模型具有低方差
  • Bob的模型输出结果毫无规律,他的模型输出与实际值偏差很大。没有一致的偏差模式。Bob的模型具有高偏差和高方差

上面的例子是对方差和偏差这一重要概念的粗略解释。

  • 偏差是模型不考虑数据中的所有信息,而持续学习导致错误的倾向。
  • 方差是模型不考虑实际数据情况,而持续进行随机性事物的程度。

偏差 – 方差权衡(Bias-Variance Trade-Off)

Markdown

在初接触数学的时候,每个人可能都会死记硬背一些概念、公式等等,这就是开始的时候,学习的方式。然而如此的方式将面临考试时的问题和背诵的问题不同。问题是数学中的广义概念,显然,在一些考试中,很难完成或者达到理想的分数。

机器学习也是同样的模式。如果模型对特定的数据集学习过多,并试图将该模型应用在未知的数据上,则可能具有很高的误差。从给定的数据集中学习太多称为过拟合。此种情况下,模型难以有效地推广应用于未知的数据。相反的,从给定的数据集中学习太少称为欠拟合。此种情况下,模型非常差,甚至无法从给定的数据中学习。

阿尔伯特·爱因斯坦简洁地概括了这个概念。他说:

“Everything should be made as simple as possible, but no simpler” *

机器学习解决问题的方式是不断的努力寻找到一个恰当的平衡点,创建一个不太复杂但是并不简单的、广义的、相对不准确但是有用的模型。

过拟合的模型显得过于复杂,它在训练数据上表现非常好,但是在测试数据上表现欠佳; 欠拟合的模型又过于简单,它无法在训练数据和测试数据上执行的让人满意; 一个良好的模型是在过拟合和欠拟合之间找到平衡,它表现良好,简单但是有用。

这种平衡行为被称为偏差 – 方差权衡。

结语

  1. 统计学习是复杂机器学习应用的基石。本文介绍统计学习的一些基本概念和基本概念。这篇文章的五大要点是:
  2. 统计学习揭示隐藏的数据关系,依赖和独立数据之间的关系;
  3. 模型是转换引擎,参数是实现转换的要素;
  4. 模型使用训练数据进行学习,使用测试数据进行评估;
  5. 所有模型都是错误的;有些是有用的;
  6. 偏差-方差权衡是一种平衡行为,以找到最佳模型、最佳点。

在本系列的后续文章中,将深入研究机器学习模型的具体内容。敬请期待……