简明数据科学 第七部分:对数回归模型

Markdown

作者丨Pradeep Menon

原文丨 https://towardsdatascience.com/data-science-simplified-part-7-log-log-regression-models-499ecd1495f0

译者丨TalkingData 张永超

在本系列的内容中,我们已经讨论了简单线性回归模型,以及多元回归模型和选择正确模型的方法。

费尔南多现在已经构建了一个很好的模型。

Markdown

price = -55089.98 + 87.34 engineSize + 60.93 horse power + 770.42 width

但是,费尔南多依然有一下考虑:

  • 如何使用常见的比较单位来估算价格变化?
  • 关于发动机尺寸、马力和宽度的对应价格有多少弹性变化?

在本篇内容中,我们将解决这些问题。本文将介绍对数回归模型

概述 为了了解对数回归模型,首先需要理解导数、对数、指数的概念,进而理解弹性的概念。

**导数: ** 导数是一种表示变化的方式 —- 一个函数在一个给定点上的变化量。

如一个变量y是x的函数,则将y定义为:

y = f(x)

则在y上关于x的导数,表示为:

dy/dx = df(x)/dx = f'(x)

而这种表示的含义如下:

y相对于x变化的变化,即,如果x变化,y会有多少变化?

这正是费尔南多所需要的,他想知道的价格正是相对于变量的变化。

之前多元回归模型的一般形式如下:

Markdown

也就是说费尔南多建立以下模型:

price = β0 + β1 . 发动机大小 i.e. 价格是一个关于发动机大小的函数。

费尔南多所构建的模型主要的目标是预测汽车的价格,而其价格方面取决于发动机的大小,其模型也正好表达了发动机大小的变化对应价格的变化的规律。

然而,可能并非如此,线性模型是假定数据是线性关系的,如下:

y = mx + c

如果计算y上的导数,则会给出如下的结果:

dy/dx = m . dx/dx + dc/dx

相对于发动机本身的变化,其值始终为1,例如dx/dx = 1

一个常数相对于任何东西的变化其导数始终为0,因为它是一个常数,例如dc/dx = 0

那么公式就变成了:

dy/dx = m

在发动机大小上应用价格导数将只会关联与发动机大小的系数。

面对这种情况,必须想办法来改变它,那么接下来就看看指数和对数。

指数:

指数是一个具有两个运算符的函数,基(b)和指数(n),被定义为b^n,其形式如下:

f(x) = b^x

基数可以使任何的正数,欧拉数(e)是统计中最为常用的基数。

在几何上,指数关系具有以下的结构:

Markdown

  • x的增加不会导致y的相应增加,直到到达某个阈值
  • 到达阈值后,x每增加一小部分,y会急速的上升

对数

对数是一个有趣的符号。在回归模型中,对数有着个性化的特质,对数的基本属性是它的基数,对数典型的基数是2、10和e。

如下例:

  • 多少个2相乘等于8?2 x 2 x 2 = 8 答案是 3
  • 也可以表示为 log2(8) = 3

可以读作 以2为底的8的对数为3

对数还有另一个共同的基数,被称为欧拉数(e),其近似值为 2.71828,在统计学中被经常使用。以e为低的对数称为自然对数。

对数也有很好的变革能力,对数可以将指数关系演化为线性关系。例如下图显示了y和x之间的指数关系:

Markdown

如果对数应用于x和y,则log(x)和log(y)之间的关系是线性的。它看起来像这样:

Markdown

弹性:

弹性是衡量一个经济变量对另一个经济变量的响应程度。假设我们有一个函数:Q = f(P)那么Q的弹性定义为:

E = P/Q x dQ/dP

dq/dP是P中Q变化的平均变化

**结合在一起: ** 现在让我们把这三个数学角色放在一起,导数、对数和指数。他们的结合规则如下:

e的对数是1,即log(e)= 1

指数的对数是指数乘以基数

log(x)的导数是:1 / x

设想一个函数y表示,如下:

y = b^x

=> log(y) = x log (b)

那么这是否意味着是线性回归模型?我们可以做数学演化以利用导数、对数和指数吗?我们是否可以重写线性模型方程来找出x的变化率呢?

  1. 首先,让我们将y和x之间的关系定义为指数关系。
  2. y = α x^β
  3. 首先将其表示为log-log的函数:log(y)= log(α)+β.log(x)
  4. 方程y = α x^β看起来并不像是回归模型:Y =β0+β1,其中β0= log(α),β1=β。这个等式现在可以重写为:log(y)=β0+β1.log(X1)

但是如何表达弹性关系呢?我们取log(y)和x的导数,得到如下结果:

  • d. log(y)/ dx = β1. log(x1)/dx
  • => 1/y . dy/dx = β1 . 1/x => β1 = x/y . dy/dx
  • β1的方程是弹性。

构建模型

搞清楚了这些概念后,费尔南多重新构建了一个模型,如下:

Markdown

log(价格) = β0 + β1. log(发动机大小) + β2. log(马力) + β3. log(宽)

他希望根据发动机尺寸,马力和宽度的变化来估算汽车价格的变化。

费尔南多最终得到了如下的参数:

Markdown

该模型的方程是:

log(价格) = -21.6672 + 0.4702.log(发动机大小) + 0.4621.log(马力) + 6.3564 .log(宽)

以下是该模型的解释:

  • 所有系数都很重要
  • 调整的R平方为0.8276,说明该模型解释了数据变化的82.76%
  • 如果发动机尺寸增加4.7%,那么汽车价格将上涨10%
  • 如果马力增加4.62%,那么汽车价格将上涨10%
  • 如果汽车的宽度增加6%,那么汽车的价格将增加1%

模型评估

费尔南多现在已经建立了对数回归模型。他评估模型在训练和测试数据上的表现。

回想一下,他已经将数据分成了训练和测试集,训练数据用于创建模型,测试数据是不可见的数据。测试数据的性能是真正的考验模型的地方。

Markdown

在训练数据上,模型表现相当好,调整的R平方为0.8276,说明该模型可以解释82.76%的训练数据变化。为了使模型可以最终被接受,还需要在测试数据方面表现良好。

费尔南多测试测试数据集的模型性能,该模型计算测试数据的调整R平方为0.8186。这意味着即使对于看不见的数据,模型也能解释81.86%的变化。

请注意,该模型估计log(价格),而不是汽车的价格。要将估计的log(价格)转换为价格,需要进行转换。

转换是将log(价格)作为基础e的指数。e^log(价格)= 价格

结语

统计学习奠定了基础,假设检验讨论了空假设和替代假设的概念,简单的线性回归模型使回归简单,然后,进入多元回归模型的世界,然后讨论模型选择方法。在这篇文章中,讨论了对数回归模型。

到目前为止,构建的回归模型只有数值独立变量。下一篇文章将讨论相互作用和定性变量的概念。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

简明数据科学 第六部分:模型选择方法

Markdown

简明数据科学 第六部分:模型选择方法

Markdown

作者丨TalkingData 张永超

在上一篇(本系列其他文章见文末)文章中,我们介绍了多元回归模型,费尔南多构建了一个多元线性回归模型,接受五个参数来预测汽车的价格。

Markdown

从最后的结果来看,费尔南多的确构建了一个很好的模型,但是他还想选择出最佳的输入参数。那么这篇文章我们将讨论模型的选择方法

基本概念

模型选择方法的思路其实比较直观,只要回答了下面的问题即可:

如何为最优模型选择正确的输入变量?

开始之前,我们需要了解如何定义最佳模型?

Markdown

最佳模型是适合评估指标最佳值的数据模型。

模型的评估有很好的指标,而调整R平方是多元回归模型的最好评价指标。

对于选择最佳参数集来说,有三种方法,他们是:

最佳子集法 前向逐步选择法 后向逐步选择法

接下来分别对这三种方法进行介绍。

Markdown

如上图所示,假设我们有k个变量,那么最佳子集法的过程如下:

  1. 从空模型开始,即没有预测器的模型,我们称之为M0;
  2. 用1个变量找出最佳模型,此时,该模型是一个简单的单一变量回归模型,只有一个独立变量,称之为M1;
  3. 用2个变量找出最佳模型,该模型是一个只有两个独立变量的回归模型,称之为M2;
  4. 用2个变量找出最佳模型,该模型是一个有三个独立变量的回归模型,称之为M3;
  5. 重复这些步骤,只到找出最佳模型的所有预测变量的组合。 对于k个变量,我们需要从下面的模型中找出一组表现最佳的模型:
  • M1: 具有1个预测器的最优模型;
  • M2: 具有2个预测器的最优模型;
  • M3: 具有3个预测器的最优模型;
  • Mk: 具有k个预测器的最优模型。

然后选择M1…Mk中最优的模型,也就是最适合的模型。 最佳子集法是一个复杂的处理过程,不仅需要梳理了预测变量的列表,而且还需要选择最佳的变量组合。最佳子集法虽然看似简单,但是它有着子集的困难和挑战。

最佳子集法为每个预测变量及其组合创建一个模型,这意味着我们正在为每个变量组合创建模型。模型的数量可以是一个非常大的数字。

如果有2个变量,那么有4个可能的模型,如果有3个变量,那么有8个可能的模型。一般来说,如果有p个变量,那么就有2 ^ p个可能的模型,这是相当多的模型可供选择。想象一下,有100个变量(很常见)。将会有2 ^ 100个可能的模型。令人难以置信的数字。

在费尔南多的情况下,只有5个变量,他将不得不创造和选择2 ^ 5个模型,即32个不同的模型。

向前逐步选择法

Markdown

至此,对最佳子集法已经有了一个了解了,但是它需要很多的计算能力,也相对比较耗时,而前向逐步选择法试图环节这种困难。

依然,假设我们有k个变量,则逐步前进选择法的步骤如下:

  1. 从空模型开始,即没有预测器的模型,我们称之为M0。将预测变量添加到模型中,一次仅添加一个;
  2. 用1个变量找出最佳模型,此时,该模型是一个简单的单一变量回归模型,只有一个独立变量,称之为M1;
  3. 在M1的基础上,增加一个变量,用2个变量找出最佳模型,称之为M2;
  4. 在M2的基础上,增加一个变量,用3个变量找出最佳模型,称之为M3;
  5. 重复这些步骤,只到找出最佳模型Mk,即有k个变量的模型。

对于k个变量,我们需要从以下一组模型中选择最优模型:

  • M1: 具有1个预测器的最优模型;
  • M2: 具有2个预测器的最优模型,该模型是M1 + 一个额外的变量;
  • M3: 具有3个预测器的最优模型,该模型是M2 + 一个额外的变量;
  • Mk: 具有k个预测器的最优模型,该模型是Mk-1 + 一个额外的变量。

再次选择M1 …

Mk中的最佳模型,即具有最佳拟合的模型

与最佳子集法相比,前向逐步选择法法创建更少的模型。如果有p个变量,那么将会有大约p(p + 1)/ 2 + 1个模型可供选择,远低于最佳子集方法中的模型选择。假设有100个变量,则基于前向逐步法创建的模型的数量是100×101/2 + 1,即5051个模型。

在费尔南多的情况下,只有5个变量,他将不得不创建和选择5 6/2 + 1*模型,即16个不同的模型。

后向逐步选择法

Markdown

现在我们已经理解了模型选择的前向逐步选择过程,接下来看看后向逐步选择法,这是前向逐步选择法的反向。前向逐步选择从没有变量的模型即空模型开始,相比之下,后向逐步选择是从所有变量开始的。后向逐步选择法的过程如下:

假设我们有k个变量,则逐步前进选择法的步骤如下:

  1. 从一个完整的模型开始,即包含所有预测变量的模型,我们称这个模型为Mk。从完整模型中删除预测变量。一次一个;
  2. 用k-1个变量找出最优模型,从Mk中删除一个变量。计算所有可能组合模型的性能。选择具有k-1个变量的最佳模型。我们称这个模型为Mk-1;
  3. 用k-2个变量找到最优模型,从Mk-1中删除一个变量。计算所有可能组合模型的性能。选择具有k-2个变量的最佳模型。我们称这个模型为Mk-2;
  4. 重复这些步骤,只到找出最佳模型M1,即有1个变量的模型。

对于k个变量,我们需要从以下一组模型中选择最优模型:

  • Mk:具有k个预测值的最优模型;
  • Mk-1:具有k-1个预测变量的最优模型。这个模型是 MK – 一个额外的变量;
  • Mk-2:具有k-2个预测变量的最优模型。这个模型是 MK – 两个额外的变量;
  • M1:具有1个预测器的最优模型。

模型构建

了解了模型选择的方法之后,让我们回到费尔南多的问题,回想一下前一篇文章,费尔南多有6个变量发动机大小,马力,峰值RPM,长度,宽度和高度,他想通过创建一个多元回归模型来估算汽车价格。他想保持模型的平衡并选择最佳的模式。

于是,费尔南多准备使用前向逐步选择法,统计软件包计算出了所有可能的模型以及输出M1到M6的结果。

Markdown

让我们解释上述结果:

  • Model 1:只有一个预测器,仅使用发动机的大小作为变量,调整的R平方为0.77;
  • Model 2:仅有两个预测器,使用发动机大小和马力作为变量,调整的R平方为0.79;
  • Model 3:仅有三个预测器,使用发动机大小、马力和宽度作为变量,调整的R平方为0.82;
  • Model 4:仅有四个预测器,使用发动机大小、马力、宽度和高度作为变量,调整的R平方为0.82;
  • Model 5:仅有五个预测器,使用发动机大小、马力、宽度、高度和峰值RPM作为变量,调整的R平方为0.82;
  • Model 6:仅有六个预测器,使用发动机大小、马力、宽度、高度、高度和峰值RPM作为变量,调整的R平方为0.82。

最终,费尔南多选择了最好的、最简单的模型。在上述结果中,Model 3 使用发动机大小、马力和宽度作为变量,该模型能够得到0.82的调整R平方,即说明该模型可以解释82%的训练数据变化,其他Model 4、5、6虽然使用了更多的变量,但是得到的调整R平方依然是0.82,相对于Model 3却更加的复杂。

在费尔南多的统计软件包中,同样输出了如下的系数结果:

Markdown

根据发动机尺寸,马力和宽度估算价格。

价格 = -55089.98 + 87.34 发动机大小 + 60.93 马力+ 770.42 * 宽度

模型评估

费尔南多选择了最好的模型,该模型将使用发动机尺寸,马力和汽车宽度估算价格。他希望评估模型在训练和测试数据上的表现。

之前,他已经将数据分成了训练集和测试集,费尔南多使用训练数据训练模型,对于模型来说此时测试数据是不可见的数据。费尔南多评估模型在测试数据上的表现。

Markdown

在训练数据上,模型表现相当好,调整的R平方为0.815,说明该模型可以解释81%的训练数据变化。但是,对于该模型来说,在测试数据集上的表现更为重要。

Markdown

费尔南多测试了模型在测试数据集上的表现性能,得到该模型在测试数据中的调整的R平方为0.7984。这意味着即使对于看不见的数据,模型也可以解释79.84%的变化。

结语

现在,费尔南多有了一个简单而且有效的模型来预测汽车的价格。但是,发动机大小,马力和宽度的单位是不同的。于是他想到了如下的几个问题:

如何使用常见的比较单位来估算价格变化?

关于发动机尺寸、马力和宽度的对应价格有多少弹性变化?

下一篇文章我们将讨论转换多元回归模型以及计算弹性的方法。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

从数据运营到数据变现,TalkingData证券行业实战分享研讨会在深圳召开

2018年7月11日下午, TalkingData在深圳举行了证券行业数据运营实战研讨会,华南地区证券行业的科技部门与网络金融部门的相关负责人参加了本次研讨会,参会者覆盖了华南地区90%以上的证券公司。此次会议以“数据运营实战分享”为主题,探讨了数据场景变现的整体思路,从业务运营指标建设、数据场景变现、精准营销案例、大数据和人工智能应用等方面,面向证券行业用户介绍行业成熟案例和解决方案。

TalkingData从多年的证券行业实战角度出发,认为证券行业的数据运营要升级现有的思路,从客户视角转向用户视角,从获客发展转向存量经营,从产品关注转向用户关注,从投资通道转向财富管理。通过养数据、看数据、用数据的方式,打通内外部数据和行为数据,实现数据资产的统一视图。通过业务运营指标体系建设,帮助证券公司关注用户转化旅程、提升运营效率、降低运营成本、发现数据变现的机会。建设数字营销闭环缩短用户转化旅程,提升客户活跃度和客户价值。

MarkdownTalkingData高级副总裁 支宝才

TalkingData高级副总裁支宝才出席了本次会议。他在开场演讲中指出,现阶段是证券行业实现业务转型的关键时间点。中国证券行业已经完成了体系、指标的建设,在今天,大家更关注如何通过数据运营获得实际的业务收入。随着客户互联网使用习惯的改变,未来的获客、经营、资产提升、业务收益都将更多地转向移动互联网平台,领先的券商已经把移动互联网变成客户运营的主战场。

Markdown国海证券的数据运营专家 蒋愉

作为第一个重量级嘉宾,国海证券的数据运营专家蒋愉分享了国海证券建设指标体系的历程。通过证券行业指标体系的建立和分析来发现业务问题背后原因,根据数据分析结果制定运营策略,建立数据监测优化的闭环式模型,帮助国海证券实现从短期KPI实现到长期目标达成,再到数字化战略部署的提升。蒋愉表示,国海证券的数据化运营分为三个阶段:即探索、实践和精细化运营,而数据指标体系及平台的搭建是从实践到精细化运营阶段的重要基石,其可以帮助证券公司实现从指标洞察到运营优化提升。

国海证券与TalkingData合作搭建的指标系统投入生产之后,其使用率达到了80%以上,有效地帮助产品、运营各线完成了数字化运营的策略制定到落地实施。蒋愉指出,在推进该平台的使用过程中,国海证券通过OKR指标分解和领导层驱动提升了用户使用指标体系平台的频率,通过数据人员对指标价值的案例梳理和演示让大家进一步理解指标价值和应用方法,并通过收集客户需求及敏捷迭代提升了用户体验。

MarkdownTalkingData证券行业咨询总监 赵博

TalkingData证券行业咨询总监赵博从多年证券行业数据运营实战角度,分享了证券行业数字化运营体系建设的思路和案例,主要覆盖券商互联网转型、数据化运营体系建设思路、数据智能平台三大方面。赵博认为证券行业流量已趋于饱和,大型券商仍在跑马圈地布局年轻人群;中小型券商急于在同质化的服务中寻求自己的差异,投资者教育会是新的流量来源。市场上逐渐出现了产品、功能、内容满足客户所有需求的产品,行业垄断态势逐步显现。通过运营平台的建设完成精准服务、提升客户粘性成为未来主旋律。

赵博提出,指标体系是指导运营的底盘,应从指标体系中挖掘用户动向、探索运营场景,并反馈回指标体系持续监控形成业务闭环。有效的指标体系能够连接前端互联网行为数据和后端商业需求,数据运营是全局概念,是数据、运营、产品、推广等部门的多方协作,是一个全策全力的作战体系。证券公司需要建立数据运营和营销中台、以客户为中心进行数据化运营,具备同互联网企业一致的数据运营能力,将流失预测模型与客户体系分类有机结合,使数据和营销产生联动,让营销结果最大化。 Markdown广发证券大数据总监 王永强博士

华南地区领先的证券公司广发证券出席了本次研讨会。广发证券大数据总监王永强博士以“大数据和人工智能助力证券业务创新”为主题,结合自身互联网巨头和证券行业的从业经验,分享了人工智能和大数据发展趋势和广发证券的实践。 王永强博士指出,人工智能在国外的券商业务中已经有典型的应用场景,并从智能证券业务、智能监管以及数据化运营三方面显示了其巨大的价值和潜力。广发证券通过建立数字化平台和大数据平台,展开不同维度的数据分析和与模型分析,利用用户画像和指标分析来完善客户综合体系评估,实现公司的数字化运营能力的提升。最后王永强博士从损益、诊断、风控等多个方面介绍了广发证券在大数据和人工智能方向的探索。

MarkdownTalkingData高级产品总监 刘彬

在接下来的分享中,TalkingData高级产品总监刘彬指出数字化运营已经成为现今互联网业务或偏向互联网业务的核心方法论。现有交易类APP已无法满足O2O的传播和时效性,证券行业数据体量的消化能力、数字化处理能力都亟待提升, 未来需要从用户概念、场景(情景)感知、营销及归因、分析诊断四大方向着手,通过数据的驱动做到自动化业务的闭环。刘彬表示TalkingData的AE系列产品和数字营销闭环平台是为证券行业数据运营开发设计,可以作为证券行业的数据运营和营销的中台,洞察用户行为,优化产品功能,建立营销场景,分析营销活动的ROI,迭代营销方案,实现数据营销闭环。利用数据和模型进行数据试验,不断尝试、试错、总结、学习,最后完成精细化运营。

MarkdownTalkingData首席布道师 鲍忠铁

会议的主持人TalkingData首席布道师鲍忠铁则在分享中强调了数据增长对于企业的重要意义,他提出了证券行业数据增长的组织建设、工具建设、体系建设、数据增长营销平台建设的方法和建议,并总结了证券行业数据增长的八条经验:

  • 数据增长是个系统工程,必须所有团队参与,领导全力支持;
  • 产品是数据增长的基础,产品优化是数据增长首要任务;
  • 多次数据实验才可以形成标准营销方案,经验需要延续;
  • 电商的五次曝光理论仍然成立,单个用户的营销推送不要超过5次/天;
  • 初次数据实验的成功率在三分之一,转化率为1%是一个可以接受的结果;
  • 场景(事件)营销的转化率最高,业务规则和模型应用同样重要;
  • 指标建设是数据增长的基础工作,指标分析的目的 是from insight to action;
  • 营销中台是数据增长和提高产能的有效工具,建立自我强化的闭环。

研讨会上设置了问答环节,证券行业的同仁积极向演讲嘉宾提出疑问、进行互动,深入讨论了证券行业数据运营中的实际困难和解决方法。TalkingData今后也将继续举办此类活动,分享行业实战经验,与企业共同探索、携手成长。

Markdown

简明数据科学 第五部分:多元回归模型

Markdown

作者:张永超

上一节中,我们讨论了费尔南多的故事,一个数据科学家想买一辆车,于是他构造了一个车辆的价格和发动机大小的简单的回归模型来预测。

Markdown

费尔南多创建的回归模型预测了基于发动机大小的车辆价格。仅使用一个自变量来预测因变量的模型。

该简单的线性回归模型可以被表示为:

price = β0 + β1 x engine size

Markdown

按照最终的模型结果,车辆的价格可以被简单预估为:

price = -6870.1 + 156.9 x engine size

该模型从两方便进行评估:

  • 健壮性 – 使用假设检验
  • 准确度 – 使用确定系数例如R平方检验
  • 回想一下,R平方的度量解释了模型预测值与真实值之间的平均方差分数,位于[0,1]之间,越高的分值表示该模型能够更好的解释方差。而费尔南多的模型最终的到的R平方为0.7503,也就是在训练集上得到75.3%的分值,预示着该模型可以解释超过75%的变化。

然而,费尔南多想要更好的结果。

他考虑到: 如果我可以用更多的数据来送给模型?它会提高准确性吗? 于是,费尔南多决定通过给模型提供更多的输入数据,即更多的自变量来增强模型。他现在进入了多变量回归模型的世界。

基本概念 线性回归模型提供了一个监督学习的简单方法,其简单但是有效。

回想一下,线性意味着如下的含义:数据点几乎排列在一条直线或者近乎直线的附近,并一直延伸。线性表明,自变量和因变量之间的关系可以用直线来表示。

直线的方程式是y = mx + c,其中一维是y轴,另一维是x轴,可以在二维平面上绘制出来:

Markdown

如果将这种关系进行泛化,则得到:

y = f(x)

其意思是:将y定义为x的函数。例如将自变量定义为独立变量的函数。

如果因变量需要用一个以上的自变量来表示呢?广义函数变为:

y = f(x, z)

即将y定义为一些函数或者组合多个参数的函数。

此时便是三维的了,包含x轴、y轴、z轴,绘制出来类似下图:

Markdown

现在,我们有多个维度,我们需要将y定义为组合x和z的函数。

对于简单线性回归模型来说,直线表示y是x的函数,现在我们有一个额外的维度z,如果将z附加二维平面会发生什么呢?它会变成一个平面。

Markdown

该平面是将y表示为x和z的函数。推断线性回归方程,可以表示为:

  • y = m1.x + m2.z+ c
  • y是因变量,即需要评估和预测的变量
  • x是第一个自变量,即可控的变量,也是第一个输入
  • m1是x的斜率,决定了线x的倾斜角度
  • z是第二个自变量,即可控的变量,是第二个输入
  • m2是z的斜率,决定了线z的倾斜角度
  • c是截距,当x和z为0时确定y值的常数 这是多元线性回归模型的起源,有多个输入变量用于估计目标,具有两个输入变量的模型可以表示为:

y = β0 + β1.x1 + β2.x2 + β3.x3

多变量回归模型的广义方程可以是:

y = β0 + β1.x1 + β2.x2 +….. + βn.xn

模型构建

现在熟悉多元线性回归模型的概念,让我们回到费尔南多。

费尔南多向他的朋友伸出更多的数据,他要求他提供有关汽车其他特性的更多数据。

Markdown

以下是他已有的数据点:

  • make: 车辆品牌
  • fuelType:所使用的动力燃料
  • nDoor:车门数量
  • engineSize:发动机大小(马力)
  • price:最终的价格
  • 他有拿到了一些新的数据点:
  • horsePower:马力
  • peakRPM:最大功率输出时的转速
  • length:车辆长度
  • width:车辆宽度
  • height:车辆高度 费尔南多现在想建立一个模型,根据附加数据点预测价格。

他制定的多元回归模型是: 根据engineSize、horsePower、peakRPM、length、width和height估算价格。

定义的函数形如:price = f(engine size, horse power, peak RPM, length, width, height)

代入多元线性方程为:price = β0 + β1. engine size + β2.horse power + β3. peak RPM + β4.length+ β5.width + β6.height

费尔南多将这些数据输入到软件统计包中,来计算和预测相关的参数,最终得到如下的结果:

Markdown

多元线性回归模型为价格估算提供以下等式:

price = -85090 + 102.85 engineSize + 43.79 horse power + 1.52 peak RPM – 37.91 length + 908.12 width + 364.33 height

模型解读

多变量模型的解释提供了每个独立变量对因变量(目标)的影响。

上述等式提供了对价格平均值的估计。每个系数的解释与所有其他预测因子保持不变。

Engine Size:如果发动机尺寸增加一个单位,则平均价格将增加102.85美元。 Horse Power: 如果马力增加一个单位,平均价格增加43.79美元。 Peak RPM:如果Peak RPM增加一个单位,平均价格增加1.52美元。 Length:如果长度增加一个单位,则平均价格下降37.91美元(长度具有-ve系数)。 Width:如果宽度增加一个单位,平均价格增加908.12美元。 Height:如果高度增加一个单位,则平均价格增加364.33美元 模型评估 该模型已建成。它被解释。所有的系数都很重要吗?哪些更重要?模型解释多少变化?

Markdown

回想关于t-stat,p值和决定系数的定义的讨论。这些概念也适用于多元回归模型。该模型的评估如下: coefficients:所有系数都大于零。这意味着所有变量对平均价格都有影响。

t-value: 除长度外,所有系数的t-value均显着高于零。对于长度来说,t-stat是-0.70。这意味着汽车的长度可能不会影响平均价格。

p-value: 除长度之外,其他变量的p值的概率非常低。长度的p值是0.4854。这意味着观察到的t-stat偶然的概率是48.54%。这个数字相当高。

回想一下关于R平方如何帮助解释模型变化的讨论。当更多变量添加到模型中时,R平方不会减小,它只会增加。但是,必须有一个平衡。经过调整的R平方努力保持这种平衡。调整后的R平方是R平方的修改版本,它已根据模型中预测变量的数量进行了调整。调整的R平方补偿变量的增加,并且只有在新术语增强模型时才增加。

调整后的R-squared:R平方值是0.811。这意味着该模型可以解释训练数据中81.1%的变化。这比以前的型号(75.03%)要好。 结语 费尔南多现在有更好的模型。但是,他感到困惑。他知道汽车的长度不会影响价格。

他想知道: 如何选择模型构建的最佳变量集?有什么方法可以选择最佳的变量子集吗?

下一节,我们将讨论变量选择方法。

相关阅读:

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学 第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

数字化场景助力区域银行客户经营

Markdown

作者:TalkingData 韩娟

互联网金融的崛起,使得客户金融交易途径不再受制于网点、ATM、POS机刷卡等传统渠道。头部各大行纷纷从坐等客户上门,转向主动围绕客户生活、工作、出行等方面挖掘金融服务需求,投入大量资源、人力、成本构建了外场到内场的客户经营生态场景。

对区域银行来说,随着息差收窄、监管趋严、金融科技跨界渗透,迫于生存转型需求更加迫切。但受制于资产规模、业务区域化、资源能力等因素,一来无法像大行一样构建全面的客户经营生态圈,二来如按照大行的客户经营建设路径,必须花费大量精力去解决面临的实际问题:

  • 数据质量:相比大行而言,业务数据缺失和口径不一致等问题较为严重,而且在业务办理时,有些数据没有获取来源,质量提升没有着力点;
  • 工具能力:虽然陆续建立了大数据中心、AI研究中心等,但普遍缺乏对先进技术的理解和搭建经验,需要匹配大量专业人士和借鉴行业经验;
  • 生态场景:区域银行根植当地,熟悉区域经济环境,与当地各机构的优先合作是其优势,但如何在可控成本下找到最优的合作机构是各区域银行头疼的事情。很多城商行和农商行在自己的生态圈内有很多同质的合作机构,如本地同等规模的商超,但迫于市场费用有限以及没有有效衡量投入产出的标准,只能凭经验一家一家试错;线上场景和流量基本被BATJ互联网巨头抢占,互联网巨头为了获取价值高的客群更愿意与大行合作,留给区域银行的操作空间较少,而且对比大行需要付出更高的成本。

因此,客户经营转型中,如何利用自身有限的资源,在可衡量效果的情况下撬动较大的客户市场,是区域银行迫切需要解决问题。那么,区域银行要以较小的成本解决该问题势必要借助外部金融科技力量,同时需要精准地回答四大问题:寻找哪些目标客群?在什么场所寻找?精准匹配什么服务?在什么交互触点下提供服务且保证服务效果?

回答这些问题离不开工具及数据能力的建设和运营方式的沉淀。而数字化场景正是基于专业的工具能力,将客户、产品和交互触点进行量化,快速且轻量投入的应对以上四大问题,构建有效的客户经营路径,在成本可控情况下精准挖掘金融服务场景,真正意义上解决了区域银行当前的痛点。

如何数字化场景

数字化场景是对场景化营销的有效量化,利用数据和工具精准识别场景中的目标客群、产品/服务、触达渠道和服务策略。

Markdown

区域银行想赢得客户和未来市场,更需要将有限的资源集中在其优势区域,这与各城商行、农商行的区域金融服务定位相一致。要达成此目标,就必须深入了解和精准识别客户的金融需求场景,充分重视和利用交互行为数据。在以往的案例中,通过复购行为挖掘业务场景,对复购客群精准的短信资讯推送,留存率提升在30%以上。

No.1 行为数据助力线上客群、产品和触点差异化识别

随着客户交易行为线上转移,很多业务不在柜台面对面办理,无法第一时间知晓客户需求和体验。所以,“三端一微”的移动端行为数据便代表了其产品和体验的核心竞争力。行为端数据包含客户交易前、交易中和交易后的浏览和点击行为,可通过页面和事件埋点进行采集分析。

然而,对于区域银行,因面临客户群体偏老龄的问题,对移动端渠道不敏感,天然认为线上用户量较少,但实际是线上用户量可观。原因在于实际老龄客群会由客户经理帮助做线上操作,而剩余部分才是真正线上用户。在某一实际案例中,在对手机银行用户行为数据分析时,发现活跃客群中有将近50%的行为信息是由客户经理操作,且客群年纪偏大。因此,线上行为数据的分析可按照两类客群进行。

真正线上用户,是区域银行未来的潜力客群,对其金融需求和用户体验的了解,依赖于线上渠道的行为数据。通过使用APP中点击按钮和浏览页面数据,并通过时间、渠道、交易方式、地理位置等维度分析,可真实反映客户偏好哪些产品、哪些活动、哪些优惠措施、以及线上触点时间和触发事件等。

例如,可以通过分析APP的点击热力图、留存时间、打开次数等行为数据,来了解客户偏好功能和偏好程度,可做前置性服务预测。如历史有购买理财产品、近期多次浏览过理财购买页面的客群,可作为理财产品售卖的Top1的潜在转化人群。在某一城商行案例中,该类客户成为新理财客群的实际转化率在30%左右。通过分析客户访问频次、访问时段、访问事件、交易频次、交易周期,交易业务类型、参与活动类型,明确客户与移动端渠道的固有交互触点,形成线上客群的产品/服务层级、交互触点细粒度以及触发策略。如:在中午12:00-13:30推送短信活动信息或者APP内活动信息,比上午9:00-10:00期间推送的有效触达率提高一倍。此外,地理位置分布统计,能够较为精准地知道已有客群在分/支行网点的周边分布情况,从而对于各分/支行特色的产品/服务可以直接推送APP内消息、短信触达或引流至线下场所。

对于代操作客群,本身不是移动端敏感客户,主要对其偏好办理的业务品类和交互触点规则进行分析,从客户经理代操作的周期、频次、业务类型,对该群体进行产品/服务分级和交互触点(网点位置、到访时间、办理业务类型)预判。如新上线一款理财产品,希望在网点做活动售卖,可以根据客群的经常办理业务类型、网点位置、到访时间进行活动位置和时间设计,活动触达客户群体数量可以提高1~2倍。

基于行为数据分析的公认价值,是针对产品迭代和用户体验提升。对区域银行而言,受制于产品同质性化、业务流程合规性,可撬动资源有限,无法像大行和互联网巨头一样以多样性、收益高、效率快作为竞争优势。所以,与交易数据相比,有些弱相关关系的行为数据的作用更多在于,帮助线上/线下渠道进行客群分层前置性服务趋势判断。

当然,了解真正线上用户的客户体验和产品差异性偏好同样具有重要意义,是区域银行为未来潜客更好提供服务的基础衡量标准,必须要重视起来。

No. 2 发力线下优势精准挖掘线下渠道场景和交互触点

区域银行优势在于覆盖地方区域,且网点分布较多,尤其是乡镇地区布点广泛。区域银行大量客群居于线下,那么线下客群如何洞察?合作资源如何有效选择?交互触点有哪些不同?回答了这些问题就能解决如:区域银行信用卡冷启动发卡,即使是虚拟卡发行,最有效的触达方式依然是线下MGM活动方式,但投入了大量的成本和资源,该如何选择活动区域、如何设计活动激励措施、什么时段开展、怎么定位客群、后续转化如何监测等问题。

  • 线下客群洞察

可以采用特定区域地理围栏、入口处安装WiFi探针、人脸识别设备等方式采集线下客群数据,将线下客群行为数据化:如明确定义出何时到访、办理何种业务、出入频次、参与线下活动类型、生活消费需求触点等。结合一方交易数据,基于产品/服务偏好、常出入场所、喜欢的触点渠道和营销激励,形成线下to线上经营的闭环路径。

如某农商行的真实案例中,利用所覆盖区域市民的公交出行普遍需求,在其手机银行端上线了优惠出行的服务产品:通过APP端电子公交卡支付公交车费,可享受大力度额优惠,同时还配有抽红包等活动,这次活动在3个月左右时间将手机银行用户量从30W左右增加到60W。这就是一个很好的结合线下人群出行需求洞察+线上支付+区域资源的场景,场景定位好后并没有用特别高大上的启动营销活动,而是由客户经理到公交站派发产品宣传单。所以,线下客群洞察能够支撑丰富并量化场景定义中交互触点,例如购买线上流量、出行服务、教育缴费等触点,并可以通过客群画像量化哪些触点优先有效。

  • 线下合作场选择

通过对各网点、合作商场、商户、超市、覆盖社区、学校等场所的客流行为轨迹、客流画像、网点交叉区域、周边配套设施(如社区类型、交通枢纽等)、竞品情况等进行量化打分,同时结合历史线下营销活动类型、效果信息,给出各合作机构的选择画像(如下),进而对后续营销活动选择区域、预估目标客群、营销产品匹配提供衡量标准。

Markdown

Markdown

真实的活动场景中,区域银行往往是活动举办完成后,才能发现A商场比B商场带来的客户转化高,其实完全可以基于已成熟的算法工具(如上),输入要合作商场位置和历史活动信息,输出评分值和洞察画像,预测投入产出效果和转化客户群体目标数量,一方面指导活动目标设计;另一方面在落地合作场所选择上提供有力的依据。

No.3 线上线下数据链路建立数字化场景运营体系

通过线上、线下行为数据和业务数据的打通,进行数字化场景的定义。定义场景中,业务侧数据主要定义客群特征和业务周期、产品/服务差异匹配;行为侧数据则为交互触点定义提供依据,如:固定缴费行为、触发活动事件(生日事件、开学事件、社保缴纳等)、常出入场所等。

定义过程可参考如下示例,对区域银行中等资产的中年人群:基础金融服务(消费支付、缴费、转账、短期储蓄等),以线上渠道为主,结合线下活动触发辅助;中端金融服务以线下事件触发为主,转线上服务。

Markdown

但要真正实现数字化场景构建,离不开工具搭建和数据能力补充,需要有支撑线上、线下行为数据获取分析、与业务数据打通、客群视角场景定义、合作场选择、转化活动事件效果跟踪等的平台工具和经营体系。如下所示:通过搭建线上/线下数据采集、分析和效果跟踪工具,构建客群场景化经营体系,实现手机银行APP客群+线下网点接触+线下活动转化的经营场景路径。

Markdown

No.4 区域银行该如何做?

通俗的讲,建立数字化场景运营体系首先是采集到用来量化场景的数据,其次是将各类数据串连起来构建有用的场景,最后是对场景落地效果进行监测和迭代。整体建设路径可以分两部分进行。

一是线上/线下运营平台并行建立:实现产品、客群、交互触点的行为量化数据采集和运营体系的建立。

TalkingData移动统计分析平台,采用SDK方式实现对手机银行、直销银行、微信银行等线上平台从访客、到用户再到客户的全行为周期交互数据的采集和分析,同时嵌入3A3R的互联网运营指标衡量体系和场景洞察方式。实现从行为数据侧识别场景,沉淀量化运营指标。

区域银行传统经营区域更接近客群,地域性情感认同更高,对线下运营需求高,通过客流运营平台/智选搭建,对到网点客流的人本行为交互数据进行采集,实现对线下网点运营能力的监测、合作场所洞察选择和客群线下交互触点的捕捉量化能力。

二是线上与线下链路打通,搭建场景定义和落地效果监测工具,并建立行之有效的运营体系。

以设备TDID+客户标识ID作为打通线上/线下业务和行为交互数据的关联纽带,形成全渠道视角的用户运营平台,利用标签的形式有效地给场景定义提供了量化的客群构建、产品/服务匹配和触点结合。

区域银行客群体量与大行相比差距并不大,以大体量农信来说,线上客群可以高达600W左右。为了基于定义的场景快速的落地获客/活客,应搭建营销闭环平台,从业务视角实现各类活动流程可视化设计、活动目标设定、多活动并行实施、活动效果监测和迭代。

此外,基于多年的行业经验,TalkingData已有成熟的客户经营闭环体系,能够帮助团队快速搭建运营体系,形成客户构建-场景定义-活动设计-效果跟踪迭代的场景落地路径。

总体而言,区域银行不适合模仿大行或互联网巨头砸重金挖掘场景,也不适合简单模仿较好区域银行的场景,而是应该结合其区域化的金融服务优势和客群特征,以数据驱动和工具利用构建有效的、差异化的线上线下融合场景,做好区域客户经营,提升业务目标。希望通过本文的分享能够给大家提供一些解决问题的思路。

推荐阅读:

券商转型互联网财富管理的三大核心方向

智慧商业,数据之选

证券行业移动App行为数据研究的商业价值

Markdown

重磅丨2018世界杯热点报告

作者:TalkingData

刚刚结束的俄罗斯世界杯为全世界球迷带来了四年一度的足球狂欢。与往届世界杯相比,移动直播应用的参与为球迷观看比赛提供了新的平台,而看球时点一份外卖则成为了很多球迷夜宵的新选择。在《2018世界杯热点报告》中,TalkingData与美团、网易新闻合作,盘点本届世界杯对于移动应用的影响,描绘移动直播平台观赛人群画像,梳理世界杯下的球迷生活变化。

Markdown

世界杯开赛刺激移动直播应用用户增长

作为2018俄罗斯世界杯中国地区转播版权方,央视旗下两款直播应用——央视影音、CCTV5在世界杯开赛后迎来用户数迅猛增长,CCTV5应用周覆盖指数连续两周增速超过50%,而新媒体版权方咪咕视频应用周覆盖指数增速同样超过10%。

在开赛两周后,世界杯直播应用周覆盖指数告别快速增长,用户规模趋于稳定。

Markdown

广告虽然略显洗脑但是有用

本届世界杯的一大热点话题是移动应用也玩起了洗脑广告无限轰炸的套路,知乎、马蜂窝旅行、Boss直聘都在世界杯转播中进行了广告投放。虽然广告内容引发吐槽,但是大规模的广告投放对于应用用户增长仍然起了正面作用,三款应用周覆盖指数整体保持正增长态势。

Markdown

冷门迭出引爆关注,日本队自带流量

德国、西班牙两队分别爆冷输给韩国、俄罗斯的对决是半决赛前最受关注的比赛,两场比赛战报在网易新闻客户端中浏览量最高。日本队虽然止步十六强,但其击败哥伦比亚的比赛位居赛事关注度第三,而出局后整洁的更衣室又引发网友大讨论,关于日本队更衣室的讨论在世界杯新闻内容中热度最高。

Markdown

85后、90后男性是世界杯观赛人群主力

在俄罗斯世界杯移动端观赛人群中,26-35岁男性是占比最高的群体。足球仍然是男人的浪漫,世界杯观赛球迷人群中男性占比是女性人群的2.5倍。年龄分布中,26-35岁人群占比为49.9%,构成了观赛人群的主体。

Markdown

OPPO、vivo是世界杯观赛人群最常用安卓品牌

在世界杯观赛人群安卓设备品牌分布中,OPPO、vivo、华为居于前三位,OPPO、vivo品牌占比合计超过48%。安卓设备价格分布中,100-1999元是最受世界杯观赛人群欢迎的设备价位。

Markdown

德国队三十年老球迷占比最高

在阿根廷、巴西、德国等强队观赛人群中,英格兰队、巴西队最受女球迷青睐,法国队最受“钢铁直男”球迷欢迎。在各年龄段偏好中,19岁以下年轻球迷更喜欢西班牙、英格兰,而46岁以上老球迷更偏爱德国、巴西这两支传统豪强球队,86年的桑巴军团、90年的德意志战车是老球迷们永远的美好回忆。

Markdown

英格兰、法国比赛观众消费娱乐更为活跃

除视频、通讯社交外,游戏、金融理财、餐饮等类别应用在英格兰、法国比赛观众中覆盖率要高于其他球队。而在线下消费中,英格兰、法国比赛观赛人群在各消费类别中的活跃度也要明显高于其他球队观赛人群。

Markdown

搜索热度:看球、彩票、世界杯等关键词搜索量大涨700%+,毛豆、啤酒搜索量上涨超过40%,酒吧成为最热看球场所

Markdown

在家看球:比赛时段内送往住宅楼的外卖订单较平日上涨18%,男生最爱点炸鸡、烤串,女生则偏爱小龙虾、卤味

Markdown

梅西、内马尔等超级球星比赛的场次,夜间外卖较平日上涨17%

Markdown

酒吧看球:酒吧订单较平日上涨15%,清吧最受消费者欢迎,订单较平日增加18%

Markdown

出行+消费:世界杯期间,夜间周末出行订单较平日上涨18%,去往酒吧、KTV等娱乐场所的订单上涨14%

Markdown

 

简明数据科学 第四部分:简单线性回归模型

作者:TalkingData 张永超

在此系列之前的文章(见文末)中,已经讨论了关于统计学习的关键概念和假设验证相关内容。在本篇内容中,将进入线性回归模型的讨论。

在开始之前,回顾一下之前统计学习中比较重要的几个关键点:

自变量和因变量:

在统计学习的背景下,有两种类型的数据:

  • 自变量:可以直接控制的数据。
  • 因变量:无法直接控制的数据。

无法控制的数据,即因变量需要预测或估计。

模型:

模型本质上就是一个转换引擎,主要的作用就是找到自变量和因变量之间的关系函数。

参数:

参数是添加到模型中用于估计输出的一部分。

基本概念

线性回归模型提供了一个监督学习的简单方法。它们简单而有效。

但是,到底什么是线性

线性意味着:数据点排列在或者沿着一条直线或者接近直线的线排列。线性表明,因变量和自变量之间的关系可以用直接表示。

回顾高中时的数学课程,一条直线的方程式是什么呢?

y = mx + c

线性回归只不过是这个简单方程的表现。

上述公式中:

  • y是因变量,是需要估计或者预测的变量
  • x是自变量,是可控的变量,在这里属于输入变量
  • m是斜率,体现了直线的倾斜程度,一般使用符号β表示
  • c是截距,当x为0时,确定y值的一个常数

线性回归模型并不是完美的,它试图以直接来逼近自变量和因变量之间的关系。而近似总会导致错误,并且一些错误是无法避免的,是问题性质本身所固有的,这些错误无法消除,称之为不可简化的错误,真正的关系中,总是具有一定的噪声项,并且是任何模型无法减少的。

上述直接公式因此可以重写为:

Markdown

  • β0和β1是代表截距和斜率的两个未知常数。他们是参数。
  • ε是误差项。

简述

下面通过一个例子来说明线性回归模型的术语和工作原理。

费尔南多是一名数据科学家,他想要买一辆车。他想估计或者预测他最终必须支付的汽车价格。正好他有一个朋友在一家汽车经销商上班,费尔南多向这位朋友咨询了各种其他汽车的价格以及汽车的一些特点,他的朋友向他提供了如下的一些信息:

Markdown

  • make: 车辆品牌
  • fuelType:所使用的动力燃料
  • nDoor:车门数量
  • engineSize:发动机大小(马力)
  • price:最终的价格

首先,费尔南多希望评估他是否可以根据发动机大小预测汽车价格。第一组分析旨在回答以下问题:

  • 汽车价格与发动机大小有关吗?
  • 这种关系有多强?
  • 关系是线性的吗?
  • 我们可以根据发动机大小预测/估算汽车价格吗?

费尔南多进行了相关分析,相关性是衡量两个变量相关的程度。它是通过称为相关系的度量来衡量的,值在0和1之间。

如果相关系数是一个较大的数,例如 0.7 以上的数,则意味着随着一个变量的增加,另一个变量也会增加。也就说,相关系数体现了变量间“同向变化”情况。

费尔南多做了一些相关性的分析,绘制出了价格与发动机大小之间的关系。

他将数据集分割成了训练和测试两部分,其中75%的数据作为训练使用,剩下的作为测试来用。

他使用了一些统计性软件包构建了一个线性回归模型,该模型本身找到了汽车的价格和发动机大小间的关系,由此创建了一个线性方程。

Markdown

有了这个模型之后,就可以回答费尔南多想了解的几个问题了:

  • 汽车价格与发动机大小有关吗?
  • 是的,它们之间是有关系的。
  • 这种关系有多强?
  • 它们间的相关系数为0.872。是一种很强的关系。
  • 关系是线性的吗?
  • 存在一条直线可以拟合。一个良好的价格预测可以由发动机大小来决定。
  • 我们可以根据发动机大小预测/估算汽车价格吗?
  • 可以。

对于价格和发动机大小的关系显而易见,其实这个模型的最终表达式也很简单,如下:

price = β0 + β1 x engine size

模型构建与解释

模型

在上述内容中,原始数据集按照一定的比例进行了分割,产生训练集和测试集两大部分,训练集被用于学习或者找规律,最终创建模型,测试集被用于评估模型的性能。

费尔南多将数据集分割成了训练和测试两部分,其中75%的数据作为训练使用,剩下的作为测试来用。他使用了一些统计性软件包构建了一个线性回归模型,该模型本身找到了汽车的价格和发动机大小间的关系,由此创建了一个线性方程。

Markdown

通过从训练数据集上进行学习训练,费尔南多得到了如下的一些结果:

Markdown

对于最终的模型来说,其估计参数值为:

  • β0:-6870.1
  • β1:156.9

从而得到线性方程为:

price = -6870.1 + 156.9 x engine size

解释

Markdown

该模型最终提供了在特定发动机大小的情况下预测汽车平均价格的方程式,也就意味着:

发动机的大小增加一个单位,将使得汽车的平均价格提高156.9个单位。

评估

模型创建好了,但是模型的稳健性还需要评估。我们如何确定该模型能够预测令人满意的价格?这项评估分两部分完成。首先,测试模型的鲁棒性。其次,评估模型的准确性。

费尔南多首先在训练数据上评估模型,他得到了如下的统计数据:

Markdown

有很多的统计数据,当前仅关注红色框标注的部分,在假设检验章节中有过讨论,使用假设检验评估模型的稳健性。

H0 和 Ha需要被首先定义,如下:

  • H0(空假设):x 和 y 之间没有任何关系,即发动机的大小和车辆价格没有关系;
  • Ha(替代假设):x 和 y 之间存在某种关系,即发动机大小和车辆价格之间存在关系。

β1:β1 的值决定了价格和发动机大小之间的关系。如果 β1 = 0,则他们之间没有关系,否则存在关系。而从上述得到的参数中可知,β1 = 156.933,说明到价格和发动机大小之间存在某种关系。

t-stat:t-stat值是系数估计值(β1)远离零点的标准差。其值越远离零越强化价格和发动机大小间的关系,从上述参数中可以看到t-stat是21.09。

p-value:p值是一个概率值。它表示在空假设为真的情况下得到给定t-statistics的机会。如果p值小,例如<0.0001,这意味着这是偶然的并且没有关系的概率非常低。在这种情况下,p值很小。这意味着价格和引擎之间的关系并非偶然。

通过这些指标,可以得到的结论是:空假设完全不存在,并且接受替代假设。车辆的价格和发动机大小之间存在着稳定的关系。

这种关系已经确定,但是其精度如何呢?为了能够感受模型的准确度,一个名为R-squared或者决定系数的度量非常重要。

R平方或确定系数:为了理解这些指标,首先将其分解其组成部分。

Markdown

  • 误差(e)是实际y与预测y之间的差异。预测的y表示为ŷ。每个观察都会评估这个错误。这些错误也称为残差。
  • 然后将所有残差值平方并相加。这个术语被称为残差平方和(RSS)。RSS越低越好。
  • R-squared的另一部分方程。为了得到另一部分,首先计算实际目标的平均值,即估计汽车价格的平均值。然后计算平均值和实际值之间的差异。然后将这些差异平方并添加。它是总和的平方(TSS)。
  • R-squared a.k.a决定系数计算为 1- RSS / TSS。该度量解释了模型预测的值与实际值平均值之间的差异部分。该值介于0和1之间。它越高,模型可以更好地解释方差。

在上面的例子中,RSS是根据三辆车的预测价格计算出来的。 RSS值是41450201.63。实际价格的平均值是11,021。 TSS计算为44,444,546。 R平方计算为6.737%。对于这三个具体数据点,该模型只能解释6.73%的变化。还不够好!!

但是,对于费尔南多的模型来说,其训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。

结语

费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据没有得到解释。有改进的余地。如何增加更多的自变量来预测价格?当添加多于一个独立变量以预测因变量时,需要创建多变量回归模型,即多于一个变量的模型 —- 多元回归模型。

相关阅读

TalkingData&链塔智库联合发布《2018中国区块链移动应用发展研究报告》

7月10日,智库BlockData与数据智能服务平台TalkingData联合发布《2018中国区块链移动应用发展研究报告》,展现2018中国区块链APP应用全景。

据悉,《2018中国区块链移动应用发展研究报告》(以下简称《报告》)调查覆盖中国7亿活跃移动互联网用户,从超过12万款热门应用中选取区块链App,从区块链App应用方向、项目类型、人群画像等多个维度展现中国区块链移动应用发展现状及创业生态,并对典型区块链APP进行重点分析。

Markdown

区块链企业高度集中北上广深杭

《报告》显示,从地区分布来看,区块链企业主要集中在北上广深杭,从行业分布来看,金融服务及企业服务是主力军。近几个月来,区块链企业融资增多,增速超过 P2P 金融及移动支付等 Fintech 技术。

根据技术发展情况,我国区块链应用主要场景包括:金融领域,企业服务,社交,文娱传媒,硬件,物联网,医疗健康,公益慈善,交通运输,人工智能,电商,房地产,教育,农业,工业,能源等领域。

《报告》强调,基于区块链技术的DApp尚处于早期探索状态,目前没有大规模实际应用价值的DApp出现,区块链相关App还是市场上的主力军。

和加密货币相关的App更受关注

链塔数据库收录了90款区块链相关App,根据苹果商店的分类划分,新闻类App最多共计38家,占比42%;财务类App共有17家,占比19%;参考类App有10个,占比11%;实用工具类App有12个,占比14%;工具类App共计6个,占比7%;其余合计占比7%。大部分的App还是和新闻和财务相关,说明这两个领域比较热门,符合行业状况。

Markdown

在部分新闻类App中,火球财经和金色财经的季度用户规模均超过20K,币头条的季度用户规模超过了10K。从使用率(活跃用户规模/安装用户规模)来看,贝壳头条最高为10.33%,说明下载贝壳头条的用户使用频率较高,而其他App的使用率大概在4%。

Markdown

其他类别的App中,OKEx的季度用户规模最大,超过了70K,但使用率不高,说明用户下载后并不是使用得很频繁。MyToken和OKCoin的季度用户规模超过30K。这三个App都是和加密货币交易相关,说明用户对此类App感兴趣。

区块链App人群以男性为主

区块链App使用人群中,男性人群占比超过70%,男性占比要比移动互联网用户中男性比例高17.7%。

Markdown

区块链App使用人群中,26-45岁人群占比合计超过70%,构成区块链App使用的主力;46岁以上人群占比要低于移动互联网同龄用户,中老年人群对于区块链应用的兴趣要低于青壮年人群。

区块链App人群更关心车子房子票子

相比于移动互联网用户整体,区块链App人群的应用兴趣更多的集中在汽车、房产、金融理财、家居等领域,对于物质条件的追求更为直接。

Markdown

而在网购、影音、生活等类别应用上,区块链App人群的兴趣要低于移动互联网用户,手机游戏是区块链应用人群最喜欢的娱乐方式。

区块链App人群偏好金融、运动类消费场所

与移动互联网用户相比,区块链App人群更加偏好金融、运动健康类线下消费场所,对于资产管理、个人健康管理更为热心。

Markdown

区块链App人群在经济发达地区集中度更高

在地域分布中,区块链App人群主要集中在广东、浙江、江苏、山东等东南沿海经济发达地区。在城市分布中,北京、深圳、上海、广州这四个一线城市包揽了前四位置。

区块链App人群在北京的工作地更多的集中在中关村、上地、望京、国贸、金融街等互联网、金融公司密集区域。而在上海的工作地分布区域更为广泛,并没有明显的区域聚集中心。

Markdown

Markdown

区块链App人群更偏好中高档价位手机

Markdown

相比于移动互联网用户,区块链App人群所使用的安卓设备中2000元以上价位占比更高,2000-3999价位占比要高出11.3%。区块链App人群更加偏好中高档价位手机。

在区块链App人群安卓设备品牌占比中,OPPO、VIVO、华为包揽了前三位。三者相加占比已超总体50%,市场集中度相对较高。

Markdown

需要完整版《2018中国区块链移动应用发展研究报告》的用户,可以关注链塔智库(公众号ID:liantazhiku)或网站,均可免费阅读完整版报告全文。

券商转型互联网财富管理的三大核心方向

前言

2018年已经过半,随着券商佣金费率不断降低,国内去杠杆、美联储加息等多种因素导致的市场行情不佳、IPO业务及承销业务的持续低迷,券商经纪业务从传统通道服务向财富管理模式转型,俨然成为国内券商的当务之急。此外,当今互联网高速发展,大数据、人工智能等概念纷至沓来。金融科技又将如何助力券商转型互联网财富管理? 这一议题也引发了越来越多的券商行业从业者的思考。
TalkingData 依据自有数据,结合服务多家券商的咨询经验,形成此次报告,结合金融科技的应用,分别从用户、产品、服务三大方向,为券商转型互联网财富管理提供相关建议和新的启发。

互联网财富管理规模究竟有多大?转型空间还有多少?

据波士顿咨询公司发布的2018年全球数字财富管理报告显示,截至2017年底中国的互联网财富管理规模已达到6千亿美元。与五年前的百亿级美元管理规模相比,年化增速已超过50%。同时,截至2017年中国个人持有的可投资资产总额高达188万亿人民币,可投资资产超过1000万的高净值人数更是高达187万人。
在互联网行业飞速发展的今天,高速增长的个人财富带动了大量的线上金融资产配置需求,这无疑给互联网财富管理市场的发展创造了巨大空间。

目前互联网财富管理的竞争格局如何?

随着互联网财富管理市场规模的迅猛发展,市场上逐渐显现出如下四类主流互联网财富管理的竞争格局。其从客户、产品、服务三个方面显现出的特点也不尽相同。
注:点击可查看高清大图,下同
Markdown

券商开展互联网财富管理转型的现状

  1. 主流券商互联网化已趋于完善
随着2014年国金证券推出“佣金宝”,证券互联网元年的正式开启,券商先后经历了2015年的互联网导流、2016年的移动APP打造、2017年的智能化浪潮阶段,目前移动APP已成为券商零售业务新模式和互联网财富管理的重要载体。
TalkingData基于数据角度对目前券商APP活跃度进行评估,发现互联网化起步较早的券商,趋于完善的产品功能和运营,较优的APP活跃度都意味着这些券商的互联网化趋于完善。线下交易的线上化,为其逐步积累了大量的线上投资客户,同时也是为其互联网化财富管理的转型之路打下了坚实基础。
Markdown
  1. 转型之路的战略布局已开始
其实财富管理转型话题一直在券商行业引发诸多讨论和思考,不少主流券商也早已在不同方面对财富管理转型进行了战略布局。例如在内部架构方面,华泰证券重新构建了零售及财富管理、机构客户服务两大业务体系;国金证券撤销原经纪业务管理总部,成立了经纪业务执行委员会;广发证券新设立了私人银行部等。客户分层方面,中信证券对交易型和财富型这两类客户的服务各有侧重点,而国金证券也区分了普通投资者和专业投资者。投顾服务方面,华泰证券的财富管理体系以投资顾问为核心,投资顾问占从业人员的比例高达 25.43%,行业排名第一。
  1. 转型之路仍是机遇与挑战并存
尽管券商的互联网化逐渐趋于完善,也已开始财富管理转型的战略布局,但对比目前拥有一定市场规模的主流互联网财富管理机构,券商其自身还是存在如下优劣势。
Markdown

数据时代券商转型互联网财富管理的三大核心方向

结合券商转型互联网财富管理上自身的优劣势,其需要基于移动APP,着眼于客户、产品、服务三大核心方向,利用大数据科技手段,以服务客户为中心,给予客户投资前、中、后三阶段的完整投资生命周期体验,协助投资人实现全方位专业资产配置的财富管理需求。
  1. 客户方向

  • 客户认知重塑:打造全方位综合型财富管理品牌
现阶段证券公司主营业务收入仍是以代理买卖证券业务及证券承销与保荐业务收入为主, 客户认知上比较固化,投资者对券商的普遍认知还仍以股票交易为主,并非财富管理或理财。因此,券商需在财富管理市场中定位其核心竞争力,重塑客户的品牌认知,从而打造全方位综合型的财富管理品牌。
  • 客户需求洞察:通过KYC描绘精准、多维的客户投资画像
客户需求洞察,做到企业比客户更懂客户,向来是提升业务运营的坚实基础, 同样也是提供针对性综合服务最有力的切入点。
TalkingData建议从客户的资产量、交易行为和用户特征三大方面着手,建立多维度交叉立体的KYC数据体系。全方面了解客户特征,洞察客户投资需求。例如TalkingData AE5.0用户洞察功能可以协助传统券商实现数字化KYC,目前其已有效协助国泰君安证券、民生银行等多家金融机构,成功构建KYC数据分析平台,利用数字化手段勾勒出投资客户画像,为企业后续精细化运营打下坚固的基础。
Markdown
  • 客户需求洞察:利用大数据科技精准定位高净值客户群体
TalkingData 可以按照客户需求,通过地理聚集原理,建立数据模型,利用机器学习加工某个特定区域的高净值人群设备,再将这些设备通过TDID等信息打通数据,以最终实现帮助客户精准定位到高净值客户群体。
Markdown
  1. 产品方向

金融产品多元化:打造全品类资产配置并通过KYP定位产品优势
  1. 提供风险收益比更高的固定收益产品:专业的客户资产配置中,固定收益类产品所占比例通常较大。且以固定收益类产品作为与客户交流的起点,更容易得到客户的认同和接受。
  2. 包装创新金融产品:金融市场不断发展,监管环境不断变化,也应面向市场不断推出新的金融产品。包装成功的创新金融产品也是抢占市场流量的有效方式之一。
  3. 打造综合资产配置概念:摆脱传统券商单纯炒股的资产保值理念,结合更多不同理财型资产类别,实现多元专业的金融资产配置。
  4. 通过动态竞品分析软件实现KYP(Know Your Product),动态跟踪市场上金融产品全面数据信息并进行分层排序,从而迅速掌握市场金融产品情况,实现更精准专业的资产配置,利于调整产品运营的策略,完善自身金融产品多元化。

三. 服务方向

提供差异化服务:线上线下联动,搭建以客户为中心的专业服务体系
  1. 发力投资者教育
Markdown
  1. 建立投后管理服务
传统的投后管理多以客户发出指令或提出服务需求、理财顾问被动响应的模式为主。
而做出差异化投后服务,可变被动为主动。 利用“智能客服” 去主动触达客户,解决客户日常基本咨询问题甚至投资收益跟踪提醒,释放出更多人力,以提供定制化资产配置、法务及税收等方面的咨询服务。
TalkingData AE5.0营销活动管理是国内首个将营销闭环整合至移动分析平台的行业产品,其不仅能追踪并分析营销活动效果,同样在投资者教育和投后管理服务方面也可以起到相似的作用。协助券商客户追踪并分析投资者内容教育方面的转化,评估投后管理服务的推送点击情况及客户满意度,进而不断帮助业务人员优化财富管理的服务体系。
Markdown
“智选”是TalkingData与腾讯云联合,依托于各自强大人本数据和地理信息数据,结合经典模型和预测算法,对特定区域周边的人群进行整合分析的数据智能平台。券商可以借助智选平台,整合各线下营业网点周边的客群特征、客群需求、客群流量等,进而调整网点经营和营销方面的策略,以达成提升线下网点服务质量的最终目的。
Markdown
更多财富管理转型咨询,请联系——
400-870-1230
support@tendcloud.com
Markdown

TalkingData崔晓波:“成效合作”是检验“数据智能”的最终标准

✎导读

数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

Markdown

近年来大数据和人工智能领域正发生深刻的进化,继2016年横空出世的阿尔法狗(AlphaGo)击败了围棋世界冠军李世石后,阿尔法元(AlphaGo Zero)又以100比0的战绩击败了阿尔法狗;另一重要事件是2018年3月科技独角兽Palantir Technologies 获得美国军方8.76 亿美元合同。

以上事件可以说“数据智能”已经发展到令人惊奇的阶段,一方面阿尔法元(AlphaGo Zero)可能证明“智能”正在迈过“数据”的桎梏;另一方面大数据企业赢下大单,也从侧面说明“数据智能”已经能够对现实世界产生重要影响。

回顾2011年TalkingData创始人兼CEO崔晓波决心在大数据领域创业时,彼时对大数据的未来还只是判断。“那时候最经典的一个讨论,我们几个创始人认为智能手机就是以后数据最重要的一个点,不仅能够把线上跟线下的数据打通,而且是历史上第一次人随身携一个测量仪,忠实地记录人物线上所有的行为、线下所有的足迹,当时我们都觉得机会来了。”庆幸的是,崔晓波赌对了。

随后大数据企业也如雨后春笋一般成立起来,在此后发展的过程中,大数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

经过7年发展,崔晓波希望TalkingData突破传统的数据源公司、数据软件公司、咨询公司模式,以“数据智能服务商”为定位,基于开放连接的理念构建整合数据产业链各方资源的平台生态。如果简单一句话解释TalkingData新商业模式,就是TalkingData希望自己不是上文提到三种模式囊括的99%玩家。

成为大数据领域1%的玩家,崔晓波在如何思考大数据的未来发展和构建TalkingData的明天?在崔晓波和亿欧的交流过程中,他提到两点认知转变:

第一是未来数据合作的核心是连接,而不是拥有

在崔晓波看来,数据拥有并不能解决大数据实际应用中的效果问题。比如单纯的数据交易不是需求决定的市场行为,数据交易会造成数据量大但却缺乏关键数据;另一方面是数据来源少,会造成数据偏差,比如对餐厅门店的第二天客流预测,如果有经营数据、财务数据、交通数据,惟独缺少天气数据,也会让预测出来的结果不准确。因此拥有多少数据不重要,关键的是能连接多少数据。

但数据因为涉及隐私保密、安全等缘由,所以数据的交易和流动都是十分谨慎的事情。为此TalkingData推出SDMK数据智能市场和SmartDP数据智能平台解决数据的流动和应用的问题。

SDMK数据智能市场接入各渠道数据源,打破各企业间的数据孤岛,帮助企业连接更多的数据。SDMK数据智能市场一个非常核心的一个框架是OPAL(Open Algorithms),又名算法开放库,“这个技术框架的核心是不流动数据,只流动算法。”据悉这个由MIT连接科学研究所发起的项目,TalkingData是唯一一家参与的中国企业,在美国有VISA、IBM、NEC等等也在参与。

同时TalkingData在上面提供数据服务、数据工具、数据模型(预置了300多个在领域里面验证的模型)以及数据应用去承载落地,并提供统一计费和计量的模块。

SmartDP数据智能平台是为各方开放提供面向业务场景的数据智能应用与服务。“通过SDMK实现数据聚合还不够,从数据的准备到自动化特征工程、模型生产和管理探索、数据目录的管理等还有很多过程。”SmartDP数据智能平台正是为企业快速上线大数据应用而开发的平台。

SmartDP数据智能平台还包括知识图谱和机器学习等算法和模块,TalkingData可以通过数据一键线性回归处理数据和模块拖曳的方式,迅速在企业的模型商店里面上架应用。

第二是大数据企业应该为效果负责,成效合作是未来趋势

这个转变源于崔晓波去美国参观全球大数据标的企业Palantir,崔晓波问Palatir的合伙人:“为什么你们的客户愿意付那么多钱?”那个合伙人回答,一会我要去签一个1亿美金的单子,是一家石油采集企业希望利用大数据做地质灾害和天气预测的项目。他们花费半年时间做出的模型,能够提前20分钟发出灾害预警,帮助油田在灾害发生前提前关闭油井,降低的损失是巨大的。“Palatir不是卖软件不管结果或者出点子的咨询模式,而是真的为效果服务,因此客户愿意付出成本。”

崔晓波提到国内企业也正在发生这种需求转变,“大概2017年,大量的企业过来找我们说,现在有紧迫的转型升级压力,真的要把数据用起来了,但是他们最大的疑惑是大数据能不能产生实际效果。”

TalkingData的策略是把客户分为几层:第一层是KA(关键客户),这一部分是可以考虑成效合作,因为投入的资源也很大,要确保成功率,要考量很多因素。第二类是叫PA,这类主要提供的是标准化产品、标准化服务。第三类是长尾的客户,是用大量SaaS和DaaS的服务去覆盖。

目前这种KA客户在TalkingData内部有10多家,每家的客单价都是千万元以上。“对KA客户我们完全倾向于成效合作,如果结果好就多分钱,结果不好可以少要钱,甚至承担损失,因为我们觉得这就是未来。”

以TalkingData服务的客户耐克为例,耐克是线上和线下获客比例更占一半。耐克希望帮助他们提升线上的销售成绩。因此邀请TalkingData从数据系统的搭建、日常运营中怎么分析数据,如何将数据应用到业务中,甚至到活动的策划、流量的对接,做出一整套产品方案。“当时我们就提出来,TalkingData可以帮耐克增长线上销售的比例,并按线上销售收入的比例分成,他们也同意。这就是非常典型的成效合作。”

在构建好以SDMK数据智能市场和SmartDP数据智能平台为基础的大数据平台,以及确定未来的商业模式后,崔晓波提到TalkingData会进军各个垂直领域,目前零售、营销、金融和智慧城市是TalkingData重点聚焦的数据智能应用领域。同时TalkingData也发布针对这四个领域的产品,包括联手腾讯云发布的面向线下品牌商的数据智能产品——智选、移动大数据人口统计应用——“统计魔方”、品牌广告价值分析平台TalkingData Brand Growth以及TalkingData金融科技产品。

就像SaaS领域对标市值千亿美金的Salesforce一样,国内大数据领域也在寻找谁是对标百亿美金估值的“Palatir”。目前超过独角兽估值的TalkingData,尽管在某些方面学习Palatir,但是我们依旧能发现二者的不同。提出“人本数据”的TalkingData,认为基于人的统计模型实际上会影响到上面所有的行业和商业,比如TalkingData的智慧城市也是基于人在城市的商业生活展开研究。可以说,TalkingData正在走出一条和而不同的路,未来值得关注。

注:本文源自亿欧网