数据科学家需要具备的10大思维模式

如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢?

人类擅长在所有的事物中寻找对应的模式。真模式,假模式,命名的模式。我们是那种能在薯片上找到猫王的脸的生物。如果你倾向于将模式与洞察力等同起来,请记住有三种数据模式:

  • 存在于你的数据集中和数据之外的模式/事实
  • 仅存在于数据集中的模式/事实
  • 只存在于你想象中的模式/事实

图:A data pattern can exist (1) in the entire sample, or (3) only in xkcd图:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

数据模式可以存在于(1)所有感兴趣的人群中,(2)仅仅在样本中,或者(3)只存在于你的头脑中。哪一种对你来说更有用,取决于你的目标是什么。

一、追求灵感

你追求的是纯粹的灵感,那么它们都非常适用。即使是来自术语apophenia中的奇特的定义apopheny(人类有错误地感知不相关事物之间的联系和意义的倾向)也可以激发你的创意。创造力是没有特定的答案的,所以你需要做的就是查看你的数据,并享受它带来的乐趣。创造力是一种额外的收获,尽量不要在这个过程中浪费太多时间。

二、崇尚事实

在收缴税收时,除了财务数据之外的模式并不受关注。基于事实的决定是,通过你的欠债情况,分析去年的数据得出应该采取的方法。它会基于事实对你所欠下的债务做出决定,而做出决定的方法就是分析去年的数据。换句话说,查看数据并使用公式进行评估。你只需要对手头的数据进行描述性统计分析。前面两种模式都可以很好地做到这一点。

三、在不确定的情况下做出决策

有时,理想和现实是有差距的,当你不具备做决定所需要的全部信息时,你就需要在不确定性中寻找方向,选择一个合理的行动方案。

这就是统计学,它是一门会改变你在不确定情况下思维方式的科学。它的目的是能产生一个像icarus一样的飞跃,突破你的知识局限,而不是遇到短板就突然结束。

这就是数据科学的核心挑战:如何应对数据不足的情况。

在你离开一个断崖式的障碍之前,你当然会希望你在现实中可以运用的模式是可以突破它的。换句话说,模式必须一般化才能真正有用。

图:Source: http://bit.ly/xkcdextrap图:Source: http://bit.ly/xkcdextrap

在三种类型中,如果你是在不确定的情况下做出决策,那么只有第一种(可推广的)模式是安全的。不幸的是,你还会在数据中发现其他类型的模式,这也是数据科学的核心问题:如何应对数据不足的情况。

四、泛化

如果你认为从数据中提取无用的模式纯粹是人类才会做出的事情,那就大错特错了!如果你不小心,机器也会自动为你做出同样的蠢事。

ML / AI的全部要点是对出现的新情况进行正确的归纳。

机器学习是一种能做出,许多类似决策的方法,这些决策涉及在算法中查找数据中的模式,并使用这些模式对全新数据做出正确决策。在ML / AI术语中,泛化是指这个模型能够很好地处理以前从未见过的数据。基于模式的方法如果只能在原来的数据上起作用,那又有什么用处呢?ML / AI的全部要点是对出现的新情况也能通用。

这就是为什么我们列表中的第一种模式是唯一适合机器学习的模式。它是信号的一部分,其余部分只是干扰信息(这些干扰只存在于旧数据中,分散了你对于可泛化模型的注意力)。

  • 信号:存在于你的数据集中以及它之外的模式。
  • 噪声:仅存在于数据集中的模式。

事实上,在机器学习中,“过拟合”指的是获得一个处理原始干扰而不是新数据的解决方案。我们在机器学习中所做的几乎所有工作都是为了避免过度拟合。

五、寻找合适的模式

假设你(或你的机器)从数据中提取的模式超出了你的想象,那么它是哪种模式呢?它是存在于感兴趣的对象(“信号”)中的真实现象,还是当前数据集的特性(“噪声”)。如何判断在访问数据集时发现了哪种模式?

如果你已经查看了所有可用的数据,那么你就被困住了,无法判断你的模式是否存在于其他地方。统计性假设检验的分析手段取决于出现的意外情况,而对数据中已经存在的模式可能会出现的意外进行模拟,效果会差异性很大。

这有点像在云中看到兔子的形状,然后使用相同的云测试所有的云是否都像兔子。我希望你们需要一些新的云来验证你们的理论。

  • 任何用来激发理论或问题的数据点都不能用来测试同一理论
  • 在查看数据之前要先提出问题
  • 数学从来都不是基本常识的反制

我们在这里得到了一个结论。如果你在寻求灵感的时候用光了你的数据集,你就不能再用它来严格测试它所带来的理论(无论你多么充分的使用数学,因为数学绝不是基本常识的反制)。

六、进行艰难的选择

这意味着你必须进行选择!如果你只有一个数据集,你就不得不问自己:“我是否有认真思索,设置了所有的统计性假设检验,然后仔细采取严格的方法,或者只是挖掘数据获取了灵感。

这里的问题是,你只有一个数据集,而你需要不止一个数据集。如果你有很多数据,那么我会为你模拟一个黑客攻击,扰乱你的思路。

七、奇特的技巧

要想在数据科学中胜出,只需通过拆分数据将一个数据集转换为(至少)两个数据集。然后用一个获取灵感,另一个用于严格的测试。如果最初启发你的模式也存在于那些没有机会影响你的观点的数据中,那么这将是一个更有希望的选择,这种模式就像是存在于猫砂里的东西,你要从中挖出你的数据。

如果相同的现象存在于两个数据集中,也许这是一个普遍的现象,它也存在于这些数据集中的任何地方。

八、令人惊叹

如果未经审视的生活不值得过下去,那么以下四个词就是生活的准则:把该死的数据拆开。

如果每个人都能分享自己的数据,世界会变得更好。我们会有更优的答案(从统计学)到更好的问题(从分析学)。人们不把数据分割作为一种强制性习惯的唯一原因是,在上个世纪,它是一种奢侈的事情,很少有人能负担得起;数据集非常小,如果你试图拆分它们,那么可能就什么都没有了。(在这里可以了解更多关于数据科学史的信息:https://www.forbes.com/sites/insights-intelai/2019/05/22/automated-inspiration/#78a3aeb1c44f)

将你的数据拆分为一个探索性数据集,每个人都可以挖掘灵感和测试数据集,以后专家可以使用这些数据集严格确认在探索阶段发现的任何“见解”。

如果你没有拆分数据的习惯,你可能会被困在20世纪。

如果你有大量的数据,但是你看到的是未分割的数据集,那么你的瓶颈可能就是会受到老式视角的影响。每个人都习惯了陈旧的思维方式,却忘记了与时俱进。

九、机器学习是数据分裂的产物

说到底,这里的想法很简单。使用一个数据集来形成一个理论,发号施令,然后开始执行,证明你知道你在一个全新的数据集中谈论的是什么。

为了更健康的数据文化,数据分割是最简单且快速解决方案。

这就是你如何在统计数据中保持安全,以及你如何避免因过度拟合ML / AI而被活活吃掉的方法。事实上,机器学习的历史就是数据分裂的历史。

十、如何在数据科学中运用最好的理念

为了利用数据科学中最佳创意,你所要做的就是确保将一些测试数据放在窥探者无法触及的地方,然后对其余的数据进行充分的分析。

要赢得数据科学,只需通过拆分数据将一个数据集转换为(至少)两个。

如果你认为他们为你提供了超出他们所探索信息的可操作洞察力,请使用你的秘密测试数据来检查他们的结论。就这么简单!

结论:

数据科学需要强大的思维逻辑,与时俱进的洞察力,还要能胆大心细摒弃一系列的干扰信息。即使是机器也并不能脱离人脑自行工作,还需要在理论与精准模式的加持下不断探索,这可真不是一项简单的工作。


作者:Cassie Kozyrkov

译者:栗峰

本文转载自:AI科技评论

原文链接:https://medium.com/@kozyrkov/the-most-powerful-idea-in-data-science-78b9cd451e72

配图来源于网络,如有侵权,请联系删除

小白也能看懂的神经网络:从神经元到深度学习(上)

神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向——深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。

本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求,但是懂一些机器学习基础会更好地帮助理解本文。

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。人脑中的神经网络是一个非常复杂的组织。成人的大脑中估计有1000亿个神经元之多。

图1 人脑神经网络图1 人脑神经网络

那么机器学习中的神经网络是如何实现这种模拟的,并且达到一个惊人的良好效果的?通过本文,你可以了解到这些问题的答案,同时还能知道神经网络的历史,以及如何较好地学习它。

由于本文较长,为方便读者,以下是本文的目录:

  一.前言

  二.神经元

  三.单层神经网络(感知器)

  四.两层神经网络(多层感知器)

  五.多层神经网络(深度学习)

  六.回顾

  七.展望

  八.总结

  九.后记

  十.备注

一、前言

让我们来看一个经典的神经网络。这是一个包含三个层次的神经网络。红色的是输入层,绿色的是输出层,紫色的是中间层(也叫隐藏层)。输入层有3个输入单元,隐藏层有4个单元,输出层有2个单元。后文中,我们统一使用这种颜色来表达神经网络的结构。

图2 神经网络结构图图2 神经网络结构图

在开始介绍前,有一些知识可以先记在心里:

  1. 设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;
  2. 神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;
  3. 结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。

除了从左到右的形式表达的结构图,还有一种常见的表达形式是从下到上来表示一个神经网络。这时候,输入层在图的最下方。输出层则在图的最上方,如下图:

图3 从下到上的神经网络结构图图3 从下到上的神经网络结构图

从左到右的表达形式以Andrew Ng和LeCun的文献使用较多,Caffe里使用的则是从下到上的表达。在本文中使用Andrew Ng代表的从左到右的表达形式。

下面从简单的神经元开始说起,一步一步介绍神经网络复杂结构的形成。

二、神经元

1.引子

对于神经元的研究由来已久,1904年生物学家就已经知晓了神经元的组成结构。

一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。

人脑中的神经元形状可以用下图做简单的说明:

图4 神经元图4 神经元

1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构,发表了抽象的神经元模型MP。在下文中,我们会具体介绍神经元模型。

Warren McCullochWarren McCulloch

Walter PittsWalter Pitts

2.结构

神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。

下图是一个典型的神经元模型:包含有3个输入,1个输出,以及2个计算功能。

注意中间的箭头线。这些线称为“连接”。每个上有一个“权值”。

图6 神经元模型图6 神经元模型

连接是神经元中最重要的东西。每一个连接上都有一个权重。

一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。

我们使用a来表示输入,用w来表示权值。一个表示连接的有向箭头可以这样理解:在初端,传递的信号大小仍然是a,端中间有加权参数w,经过这个加权后的信号会变成a*w,因此在连接的末端,信号的大小就变成了a*w。

在其他绘图模型里,有向箭头可能表示的是值的不变传递。而在神经元模型里,每个有向箭头表示的是值的加权传递。

图7 连接(connection)图7 连接(connection)

如果我们将神经元图中的所有变量用符号表示,并且写出输出的计算公式的话,就是下图。

图8 神经元计算图8 神经元计算

可见z是在输入和权值的线性加权和叠加了一个函数g的值。在MP模型里,函数g是sgn函数,也就是取符号函数。这个函数当输入大于0时,输出1,否则输出0。

下面对神经元模型的图进行一些扩展。首先将sum函数与sgn函数合并到一个圆圈里,代表神经元的内部计算。其次,把输入a与输出z写到连接线的左上方,便于后面画复杂的网络。最后说明,一个神经元可以引出多个代表输出的有向箭头,但值都是一样的。

神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果,并传递到下一层。

图9 神经元扩展图9 神经元扩展

当我们用“神经元”组成网络以后,描述网络中的某个“神经元”时,我们更多地会用“单元”(unit)来指代。同时由于神经网络的表现形式是一个有向图,有时也会用“节点”(node)来表达同样的意思。

3.效果

神经元模型的使用可以这样理解:

我们有一个数据,称之为样本。样本有四个属性,其中三个属性已知,一个属性未知。我们需要做的就是通过三个已知属性预测未知属性。

具体办法就是使用神经元的公式进行计算。三个已知属性的值是a1,a2,a3,未知属性的值是z。z可以通过公式计算出来。

这里,已知的属性称之为特征,未知的属性称之为目标。假设特征与目标之间确实是线性关系,并且我们已经得到表示这个关系的权值w1,w2,w3。那么,我们就可以通过神经元模型预测新样本的目标。

4.影响

1943年发布的MP模型,虽然简单,但已经建立了神经网络大厦的地基。但是,MP模型中,权重的值都是预先设置的,因此不能学习。

1949年心理学家Hebb提出了Hebb学习率,认为人脑神经细胞的突触(也就是连接)上的强度上可以变化的。于是计算科学家们开始考虑用调整权值的方法来让机器学习。这为后面的学习算法奠定了基础。

图10 Donald Olding Hebb图10 Donald Olding Hebb

尽管神经元模型与Hebb学习律都已诞生,但限于当时的计算机能力,直到接近10年后,第一个真正意义的神经网络才诞生。

三、单层神经网络(感知器)

1.引子

1958年,计算科学家Rosenblatt提出了由两层神经元组成的神经网络。他给它起了一个名字–“感知器”(Perceptron)(有的文献翻译成“感知机”,下文统一用“感知器”来指代)。

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动。

人们认为已经发现了智能的奥秘,许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助了神经网络的研究,并认为神经网络比“原子弹工程”更重要。这段时间直到1969年才结束,这个时期可以看作神经网络的第一次高潮。

图11 Rosenblat与感知器图11 Rosenblat与感知器

2.结构

下面来说明感知器模型。

在原来MP模型的“输入”位置添加神经元节点,标志其为“输入单元”。其余不变,于是我们就有了下图:从本图开始,我们将权值w1, w2, w3写到“连接线”的中间。

图12 单层神经网络图12 单层神经网络

在“感知器”中,有两个层次。分别是输入层和输出层。输入层里的“输入单元”只负责传输数据,不做计算。输出层里的“输出单元”则需要对前面一层的输入进行计算。

我们把需要计算的层次称之为“计算层”,并把拥有一个计算层的网络称之为“单层神经网络”。有一些文献会按照网络拥有的层数来命名,例如把“感知器”称为两层神经网络。但在本文里,我们根据计算层的数量来命名。

假如我们要预测的目标不再是一个值,而是一个向量,例如[2,3]。那么可以在输出层再增加一个“输出单元”。

下图显示了带有两个输出单元的单层神经网络,其中输出单元z1的计算公式如下图。

图13 单层神经网络(Z1)图13 单层神经网络(Z1)

可以看到,z1的计算跟原先的z并没有区别。

我们已知一个神经元的输出可以向多个神经元传递,因此z2的计算公式如下图。

图14 单层神经网络(Z2)图14 单层神经网络(Z2)

可以看到,z2的计算中除了三个新的权值:w4,w5,w6以外,其他与z1是一样的。

整个网络的输出如下图。

图15 单层神经网络(Z1和Z2)图15 单层神经网络(Z1和Z2)

目前的表达公式有一点不让人满意的就是:w4,w5,w6是后来加的,很难表现出跟原先的w1,w2,w3的关系。

因此我们改用二维的下标,用W(x,y)来表达一个权值。下标中的x代表后一层神经元的序号,而y代表前一层神经元的序号(序号的顺序从上到下)。

例如,w1,2代表后一层的第1个神经元与前一层的第2个神经元的连接的权值(这种标记方式参照了Andrew Ng的课件)。根据以上方法标记,我们有了下图。

图16 单层神经网络(扩展)图16 单层神经网络(扩展)

如果我们仔细看输出的计算公式,会发现这两个公式就是线性代数方程组。因此可以用矩阵乘法来表达这两个公式。

例如,输入的变量是[a1,a2,a3]T(代表由a1,a2,a3组成的列向量),用向量a来表示。方程的左边是[z1,z2]T,用向量z来表示。

系数则是矩阵W(2行3列的矩阵,排列形式与公式中的一样)。

于是,输出公式可以改写成:g(W * a) = z;

这个公式就是神经网络中从前一层计算后一层的矩阵运算。

3.效果

与神经元模型不同,感知器中的权值是通过训练得到的。因此,根据以前的知识我们知道,感知器类似一个逻辑回归模型,可以做线性分类任务。

我们可以用决策分界来形象的表达分类的效果。决策分界就是在二维的数据平面中划出一条直线,当数据的维度是3维的时候,就是划出一个平面,当数据的维度是n维时,就是划出一个n-1维的超平面。

下图显示了在二维平面中划出决策分界的效果,也就是感知器的分类效果。

图17 单层神经网络(决策分界)图17 单层神经网络(决策分界)

4.影响

感知器只能做简单的线性分类任务。但是当时的人们热情太过于高涨,并没有人清醒的认识到这点。于是,当人工智能领域的巨擘Minsky指出这点时,事态就发生了变化。

Minsky在1969年出版了一本叫《Perceptron》的书,里面用详细的数学证明了感知器的弱点,尤其是感知器对XOR(异或)这样的简单分类任务都无法解决。

Minsky认为,如果将计算层增加到两层,计算量则过大,而且没有有效的学习算法。所以,他认为研究更深层的网络是没有价值的。(本文成文后一个月,即2016年1月,Minsky在美国去世。谨在本文中纪念这位著名的计算机研究专家与大拿。)

图18 Marvin Minsky图18 Marvin Minsky

由于Minsky的巨大影响力以及书中呈现的悲观态度,让很多学者和实验室纷纷放弃了神经网络的研究。神经网络的研究陷入了冰河期。这个时期又被称为“AI winter”。

接近10年以后,对于两层神经网络的研究才带来神经网络的复苏。

四、两层神经网络(多层感知器)

1.引子

两层神经网络是本文的重点,因为正是在这时候,神经网络开始了大范围的推广与使用。

Minsky说过单层神经网络无法解决异或问题。但是当增加一个计算层以后,两层神经网络不仅可以解决异或问题,而且具有非常好的非线性分类效果。不过两层神经网络的计算是一个问题,没有一个较好的解法。

1986年,Rumelhar和Hinton等人提出了反向传播(Backpropagation,BP)算法,解决了两层神经网络所需要的复杂计算量问题,从而带动了业界使用两层神经网络研究的热潮。目前,大量的教授神经网络的教材,都是重点介绍两层(带一个隐藏层)神经网络的内容。

这时候的Hinton还很年轻,30年以后,正是他重新定义了神经网络,带来了神经网络复苏的又一春。

David RumelhartDavid Rumelhart

Geoffery HintonGeoffery Hinton

2.结构

两层神经网络除了包含一个输入层,一个输出层以外,还增加了一个中间层。此时,中间层和输出层都是计算层。我们扩展上节的单层神经网络,在右边新加一个层次(只含有一个节点)。

现在,我们的权值矩阵增加到了两个,我们用上标来区分不同层次之间的变量。

例如ax(y)代表第y层的第x个节点。z1,z2变成了a1(2),a2(2)。下图给出了a1(2),a2(2)的计算公式。

图20 两层神经网络(中间层计算)图20 两层神经网络(中间层计算)

计算最终输出z的方式是利用了中间层的a1(2),a2(2)和第二个权值矩阵计算得到的,如下图。

图21 两层神经网络(输出层计算)图21 两层神经网络(输出层计算)

假设我们的预测目标是一个向量,那么与前面类似,只需要在“输出层”再增加节点即可。

我们使用向量和矩阵来表示层次中的变量。a(1),a(2),z是网络中传输的向量数据。W(1)和W(2)是网络的矩阵参数。如下图。

图22 两层神经网络(向量形式)图22 两层神经网络(向量形式)

使用矩阵运算来表达整个计算公式的话如下:

g(W(1) * a(1)) = a(2);

g(W(2) * a(2)) = z;

由此可见,使用矩阵运算来表达是很简洁的,而且也不会受到节点数增多的影响(无论有多少节点参与运算,乘法两端都只有一个变量)。因此神经网络的教程中大量使用矩阵运算来描述。

需要说明的是,至今为止,我们对神经网络的结构图的讨论中都没有提到偏置节点(bias unit)。事实上,这些节点是默认存在的。它本质上是一个只含有存储功能,且存储值永远为1的单元。在神经网络的每个层次中,除了输出层以外,都会含有这样一个偏置单元。正如线性回归模型与逻辑回归模型中的一样。

偏置单元与后一层的所有节点都有连接,我们设这些参数值为向量b,称之为偏置。如下图。

图23 两层神经网络(考虑偏置节点)图23 两层神经网络(考虑偏置节点)

可以看出,偏置节点很好认,因为其没有输入(前一层中没有箭头指向它)。有些神经网络的结构图中会把偏置节点明显画出来,有些不会。一般情况下,我们都不会明确画出偏置节点。

在考虑了偏置以后的一个神经网络的矩阵运算如下:

g(W(1) * a(1) + b(1)) = a(2);

g(W(2) * a(2) + b(2)) = z;

需要说明的是,在两层神经网络中,我们不再使用sgn函数作为函数g,而是使用平滑函数sigmoid作为函数g。我们把函数g也称作激活函数(active function)。

事实上,神经网络的本质就是通过参数与激活函数来拟合特征与目标之间的真实函数关系。初学者可能认为画神经网络的结构图是为了在程序中实现这些圆圈与线,但在一个神经网络的程序中,既没有“线”这个对象,也没有“单元”这个对象。实现一个神经网络最需要的是线性代数库。

3.效果

与单层神经网络不同。理论证明,两层神经网络可以无限逼近任意连续函数。

这是什么意思呢?也就是说,面对复杂的非线性分类任务,两层(带一个隐藏层)神经网络可以分类的很好。

下面就是一个例子(此两图来自colah的博客),红色的线与蓝色的线代表数据。

而红色区域和蓝色区域代表由神经网络划开的区域,两者的分界线就是决策分界。

图24 两层神经网络(决策分界)图24 两层神经网络(决策分界)

可以看到,这个两层神经网络的决策分界是非常平滑的曲线,而且分类的很好。有趣的是,前面已经学到过,单层网络只能做线性分类任务。而两层神经网络中的后一层也是线性分类层,应该只能做线性分类任务。为什么两个线性分类任务结合就可以做非线性分类任务?

我们可以把输出层的决策分界单独拿出来看一下。就是下图。

图25 两层神经网络(空间变换)图25 两层神经网络(空间变换)

可以看到,输出层的决策分界仍然是直线。关键就是,从输入层到隐藏层时,数据发生了空间变换。也就是说,两层神经网络中,隐藏层对原始的数据进行了一个空间变换,使其可以被线性分类,然后输出层的决策分界划出了一个线性分类分界线,对其进行分类。

这样就导出了两层神经网络可以做非线性分类的关键–隐藏层。联想到我们一开始推导出的矩阵公式,我们知道,矩阵和向量相乘,本质上就是对向量的坐标空间进行一个变换。因此,隐藏层的参数矩阵的作用就是使得数据的原始坐标空间从线性不可分,转换成了线性可分。

两层神经网络通过两层的线性模型模拟了数据内真实的非线性函数。因此,多层的神经网络的本质就是复杂函数拟合。

下面来讨论一下隐藏层的节点数设计。在设计一个神经网络时,输入层的节点数需要与特征的维度匹配,输出层的节点数要与目标的维度匹配。而中间层的节点数,却是由设计者指定的。因此,“自由”把握在设计者的手中。但是,节点数设置的多少,却会影响到整个模型的效果。如何决定这个自由层的节点数呢?目前业界没有完善的理论来指导这个决策。一般是根据经验来设置。较好的方法就是预先设定几个可选值,通过切换这几个值来看整个模型的预测效果,选择效果最好的值作为最终选择。这种方法又叫做Grid Search(网格搜索)。

了解了两层神经网络的结构以后,我们就可以看懂其它类似的结构图。例如EasyPR字符识别网络架构(下图)。

图26 EasyPR字符识别网络图26 EasyPR字符识别网络

EasyPR使用了字符的图像去进行字符文字的识别。输入是120维的向量。输出是要预测的文字类别,共有65类。根据实验,我们测试了一些隐藏层数目,发现当值为40时,整个网络在测试集上的效果较好,因此选择网络的最终结构就是120,40,65。

4.训练

下面简单介绍一下两层神经网络的训练。

在Rosenblat提出的感知器模型中,模型中的参数可以被训练,但是使用的方法较为简单,并没有使用目前机器学习中通用的方法,这导致其扩展性与适用性非常有限。从两层神经网络开始,神经网络的研究人员开始使用机器学习相关的技术进行神经网络的训练。例如用大量的数据(1000-10000左右),使用算法进行优化等等,从而使得模型训练可以获得性能与数据利用上的双重优势。

机器学习模型训练的目的,就是使得参数尽可能的与真实的模型逼近。具体做法是这样的。首先给所有参数赋上随机值。我们使用这些随机生成的参数值,来预测训练数据中的样本。样本的预测目标为yp,真实目标为y。那么,定义一个值loss,计算公式如下。

loss = (yp – y)2

这个值称之为损失(loss),我们的目标就是使对所有训练数据的损失和尽可能的小。

如果将先前的神经网络预测的矩阵公式带入到yp中(因为有z=yp),那么我们可以把损失写为关于参数(parameter)的函数,这个函数称之为损失函数(loss function)。下面的问题就是求:如何优化参数,能够让损失函数的值最小。

此时这个问题就被转化为一个优化问题。一个常用方法就是高等数学中的求导,但是这里的问题由于参数不止一个,求导后计算导数等于0的运算量很大,所以一般来说解决这个优化问题使用的是梯度下降算法。梯度下降算法每次计算参数在当前的梯度,然后让参数向着梯度的反方向前进一段距离,不断重复,直到梯度接近零时截止。一般这个时候,所有的参数恰好达到使损失函数达到一个最低值的状态。

在神经网络模型中,由于结构复杂,每次计算梯度的代价很大。因此还需要使用反向传播算法。反向传播算法是利用了神经网络的结构进行的计算。不一次计算所有参数的梯度,而是从后往前。首先计算输出层的梯度,然后是第二个参数矩阵的梯度,接着是中间层的梯度,再然后是第一个参数矩阵的梯度,最后是输入层的梯度。计算结束以后,所要的两个参数矩阵的梯度就都有了。

反向传播算法可以直观的理解为下图。梯度的计算从后往前,一层层反向传播。前缀E代表着相对导数的意思。

图27 反向传播算法图27 反向传播算法

反向传播算法的启示是数学中的链式法则。在此需要说明的是,尽管早期神经网络的研究人员努力从生物学中得到启发,但从BP算法开始,研究者们更多地从数学上寻求问题的最优解。不再盲目模拟人脑网络是神经网络研究走向成熟的标志。正如科学家们可以从鸟类的飞行中得到启发,但没有必要一定要完全模拟鸟类的飞行方式,也能制造可以飞天的飞机。

优化问题只是训练中的一个部分。机器学习问题之所以称为学习问题,而不是优化问题,就是因为它不仅要求数据在训练集上求得一个较小的误差,在测试集上也要表现好。因为模型最终是要部署到没有见过训练数据的真实场景。提升模型在测试集上的预测效果的主题叫做泛化(generalization),相关方法被称作正则化(regularization)。神经网络中常用的泛化技术有权重衰减等。

5.影响

两层神经网络在多个地方的应用说明了其效用与价值。10年前困扰神经网络界的异或问题被轻松解决。神经网络在这个时候,已经可以发力于语音识别,图像识别,自动驾驶等多个领域。

历史总是惊人的相似,神经网络的学者们再次登上了《纽约时报》的专访。人们认为神经网络可以解决许多问题。就连娱乐界都开始受到了影响,当年的《终结者》电影中的阿诺都赶时髦地说一句:我的CPU是一个神经网络处理器,一个会学习的计算机。

但是神经网络仍然存在若干的问题:尽管使用了BP算法,一次神经网络的训练仍然耗时太久,而且困扰训练优化的一个问题就是局部最优解问题,这使得神经网络的优化较为困难。同时,隐藏层的节点数需要调参,这使得使用不太方便,工程和研究人员对此多有抱怨。

90年代中期,由Vapnik等人发明的SVM(Support Vector Machines,支持向量机)算法诞生,很快就在若干个方面体现出了对比神经网络的优势:无需调参;高效;全局最优解。基于以上种种理由,SVM迅速打败了神经网络算法成为主流。

图28 Vladimir Vapnik图28 Vladimir Vapnik

神经网络的研究再次陷入了冰河期。当时,只要你的论文中包含神经网络相关的字眼,非常容易被会议和期刊拒收,研究界那时对神经网络的不待见可想而知。

未完待续


版权说明:本文中的所有文字,图片,代码的版权都是属于作者和博客园共同所有。转载请务必注明作者与出处。

原文链接:https://www.cnblogs.com/subconscious/p/5058741.html​​​​

排雷避坑,机器学习一定要避开的3大陷阱!

几十年来,机器学习领域一直饱受“坦克问题(tank problem)”的折磨。

故事发生在上个世纪60年代(此研究已知的最早文献,此处感谢软件工程师Jeff Kaufman),事件的细节已湮没在时间的迷雾当中,不过故事大概是这样子的:

研究者们编写了个算法来从军方提供的照片中识别坦克。该模型成功地在测试图中找到了坦克,但随后使用真实的照片时却失败了。

原因是什么呢?口口相传的具体细节各不相同,但算法用来测试的图片包含了其他信息,比如在晨光中或从云层下显现的坦克影响了机器判断是一个重要的原因。所以说,并不是坦克的存在决定了算法,其它因素也很重要。

类似的情况在当今也引起了反省。许多机器学习的论文未能完成足够多的实验,审查标准不够一致,并且行业内激烈的竞争也鼓励一些研究人员,一旦得到了他们想要的答案就偷工减料跳过检查。所以在无数领域的科学家正急于用机器学习解决问题时,谷歌的Patrick Riley却呼吁大家在研究中制定更加明确的标准。

不可否认的是机器学习正在推动着整个科学界的发展,尤其是它发现及预测的模式正在从各个领域辅助研究者们,从搜寻分子制造的新方法和在试验中发现微小信号,到改进医疗诊断与揭示基本粒子,皆有其身影。

然而,机器学习工具也会变成“智障”,比如假正例、死胡同与各种错误。而且由于许多算法都太过复杂,以至于无法检查所有参数或者准确了解输入的方式,随着这些算法被更加广泛地应用,错误的结论和科学成果所引发的风险将会呈螺旋式上升。

这些问题并不是一朝一夕的事,所以预测每次分析中出现的所有问题或困境也是不可能的,但至少,那些在自己的领域使用机器学习的研究者们,应该去熟悉一些常见的陷阱,以及如何检测或避免那些陷阱。

为了说明这点,这里列举三个Google Accelerate Science团队所面临并且克服的机器学习的三大问题。

机器学习三大陷阱

01

不适当地拆分数据在建模时,机器学习从业者通常将数据分成训练集和测试集,用训练集训练模型,用测试集评估模型的性能。研究员通常会随机拆分数据,但是现实生活里真正随机的数据少之又少。他们可能包含了时间趋势,例如收集数据方法的变化,或是收集信息的各种选择。

例如,这种历史模式隐藏在分子数据集中,而机器学习算法正在对这些数据集进行虚拟筛选,以寻找候选药物。这里的挑战在于预测一个分子如何会被有效地被人体吸收或减少炎症。筛选从有关分子的数据开始,这些分子具有或不具有预期的效果,但是收集数据的背景或许会与机器学习模型的使用方式有所不同。

一个模型可能是用一组公开可用的分子数据集训练的,然后用于测试另一组专有的分子数据集。而当有希望的候选项被检测和丢弃时,化学家的关注点往往从某些分子群转移到另一些分子群。 因此,研究人员经常高估模型在实践中的表现。 这会导致期望值的膨胀,并且在选择不适合的分子上浪费时间和金钱。 许多模型制造者都落入这个陷阱。

换句话说,你要解决的问题才应该影响你如何分割数据。为了预测向一个分子中添加两个原子的效果,测试集中的每个分子在训练集中应该至少存在两个原子的差别。 如果你想对不同的化学分子有更好的预测,测试集中的每个分子都应该不同于训练集中的任何东西。 分割数据的“正确”方法可能并不显眼,但是仔细考虑和尝试几种方法或有意想不到的收获。

02

隐藏变量在一个理想的实验当中,研究者只改变他们感兴趣的变量,并让其他变量保持不变,而这种控制在现实当中几乎是不可能的。仪器的精确度会随着时间而改变,试剂的批次会有所不同,一个实验条件会先于另一个进行表现出来,甚至天气都有可能影响结果。在机器学习模型中,这些不受控制的变量都将是有害无益的。

举个例子,谷歌的一个团队一直在加利福尼亚州的福特·希尔兰赫 (Foothill Ranch, California) 的核聚变初创公司TAE Technologies工作,进行优化生产高能等离子体的实验。他们在这里建了模型来试图理解等离子机的最佳设备装置。这里存在着上百个从“何时接通电极”到“设置在磁体上的电压为多少”等控制参数,然后记录了一系列包括温度和光谱在内的测量值。

他们历经数月,从数千次运行的等离子机中提取了数据,其中的设定会随着我们的设备调整、部件磨损和多种尝试有所变化。当我们得到了一个在给定的设置下,无论等离子能量是否会变高,预测结果都很不错的模型时,大家都很高兴,不过很快就打脸了。

当他们以实验时间为唯一输入而不是机器的所有设置来训练模型,也得到了相似的预测效果。为什么?因为模型锁定的就是时间趋势,而不是物理现象。也就是说,机器运转良好的时间段和不良的时间段分别出现,所以,从实验完成的时间可以看出等离子体是否是高能量的。此外,通过控制参数的设置可以粗略预测实验何时进行ーー这些参数的变化也存在时间趋势。也就是说,除了时间规律,模型什么物理规律都没管。

隐藏变量也会来源于实验布局。像我们在解读显微镜图像方面与许多机构合作,其中包括纽约市的纽约干细胞基金会研究所。这些图像包括了在培养皿上进行的生物实验,通常是一些包含细胞和液体的网格孔。我们的目标是发现拥有某些特征的孔,比如化学处理后细胞外观的变化。但是生物变异意味着每个培养皿本身总是会看起来有稍许不同,并且单个培养皿也可能存有差异。如果外围孔有更多液体蒸发,或者培养皿有被倾斜,那边缘看起来通常会与中心不一样。

机器学习算法能轻而易举地注意到这些变化。比如说模型可能刚辨认出了哪些孔处在培养皿的边缘 ,一种检查模型的简易方法就是让模型去预测其他方面,如培养皿的位置、哪一块培养皿,或者图片来源的批次。如果算法能做到这一点,那你最好对结果持怀疑态度。

最重要的一点是,要使用多个模型来检测那些意外变量与隐藏变量。可以用一个模型侧重你关心的问题,比如离子是高能还是低能,细胞是否健康,其他模型则用来清除干扰因子。如果后者结果很强,那么请将数据标准化,做些进一步的实验,或者调整一下结论。

03

曲解目标机器学习算法要求研究员明确一个用来估量各种错误严重度的“损失函数”,例如到底是有两个1%的错误好,还是单个2%的错误更合理。从业者们倾向于应用函数的一小部分,从而导致他们无法得到真正需要的内容。

还是举个例子,大家一直有用机器学习来辅佐求解微分方程。这些公式在包括流体力学、电磁学、材料科学、天体物理学和金融建模中很常见,一般情况下它们必须以数字方式解决,然后开始训练模型,从而能在有限的条件下提供更高的精确性。

比如说从一个方程开始描述水波如何在一维进行传播吧。该算法的任务是从当前的时间步长来重复预测下一步,在这方面可以准备两种略微不同的方法与训练模型。根据损失函数来看,这两个模型是一样优秀的,但实际上其中一个做了一堆无用功,另一个的产生结果更接近预期。

原因就是控制学习的损失函数只考虑到了下一步的错误,而不是研究者真正想要的多重步骤的解决方案有效性。

我们在糖尿病视网膜病变的机器筛查方面也出现了分歧目标。这是糖尿病的一种并发症,也是世界上可预防性失明的主要原因。如果能从眼后图像及时检测到该病症,它就能被有效治疗。当我们收集数据并且让眼科医生通过图像进行诊断时,我们让机器学习的工具预测一下医生都会说些什么,此时出现了两种情况。

在印度Madurai的Aravind医院,工作人员和谷歌研究员正在进行眼科检查,试图自动诊断由糖尿病引起的失明。图源:Atul Loke /纽约时报/ Red / eyevine

情况一是眼科医生经常不认同诊断,因此研究人员意识到不能通过单一的预测来建立模型。总不能来个投票说少数服从多数,因为在医疗上,有时候少数人的意见才是正确的。情况二是单一疾病的诊断实际上并不是真正的目标。因为往往需要问的是:“这个患者需要去看医生吗?”,然后通过这种方式将目标从单一疾病的诊断扩展到多重疾病。

机器学习从业者很容易迷恋上数据标签都清晰的 “明显“目标,但他们可能正在设置算法来解决错误的问题。所以必须牢记大方向和总目标,否则就只会为错误问题埋单。

04

那可以做什么呢?首先,机器学习专家需要让自己和同事们持有更高的标准。当有新实验设备到来时,大家总是寄希望于实验室的小伙伴们搞懂其功能,怎么校准,怎么检测到问题,还要了解其功能的限制。因此,面对机器学习时也应如此。机器学习不是魔法,工具的使用者们必须了解如何掌控它们。

其次,当需要使用机器学习时,不同学科需要为其制定出明确的标准。合适的控制、健全性检查和错误的测量会因领域而异,所以这些都需要解释清楚,以便研究者、审查者和从业者有规可循。

第三,机器学习科学家们所受的教育需要包括一些更广泛的内容。即使有些类似于这样开源的资源存在,需要做的仍然很多。授人以鱼不如授人以渔,可能更多人只去学算法与工具,但学习如何应用算法与适当地提出质疑也很重要。

所有从事机器学习的人都正处在一个神奇的点上——计算能力、数据和算法交织在一起,在机器学习的的协助下碰撞出了新的美妙火花 ,利用好这个机会将是整个科学界义不容辞的责任。

相关资料

谷歌AI教育:http://ai.google/education

原文链接:https://www.nature.com/articles/d41586-019-02307-y


本文转载自:数据管道

编译:Vicky、曹培信

原文作者:Patrick Riley

封面图来源于网络,如有侵权,请联系删除

TalkingData参与《软件开发包安全与合规白皮书》撰写并出席数据安全

近日,由中国信息通信研究院(以下简称“信通院”)与环球律师事务所(以下简称“环球律所”)共同主办、CCA公司法务联盟承办的“数据安全与个人信息保护论坛”在北京举办。论坛上正式发布了《软件开发包(SDK)安全与合规白皮书》,还探讨了新经济企业、数字化转型的传统企业以及投融资机构如何应对数据安全与个人信息合规的挑战。

《软件开发包(SDK)安全与合规白皮书》(以下简称“白皮书”)由信通院与环球律所联合发布,体现了信通院和环球律所在第三方SDK安全与合规问题方面的最新研究成果,为移动互联网网络与数据安全、个人信息保护管理要求及规则的制定提供有益参考。
从内容上,该白皮书聚焦于第三方SDK,梳理当前应用较为广泛的第三方SDK类型和市场情况,结合实际案例分析第三方SDK存在的主要安全问题以及第三方SDK提供者与App开发者合作过程中面临的法律合规问题。通过调研欧盟、美国的相关经验做法,从法律法规、企业责任、技术标准、行业自律等方面结合我国实际情况提出了有针对性的建议。TalkingData做为第三方SDK的企业代表,在白皮书中分享了TalkingData SDK的安全合规实践,包括在SDK开发者协议和隐私政策以及标识用户方法、数据存储、数据汇聚、数据使用、数据删除、对外合作方面的安全举措等。在白皮书的揭幕仪式上,中国信通院安全所魏所长表示,SDK安全合规问题实际一直受到关注,目前大家只是形成了初步的探讨,接下来会做更多的工作,邀请更多业界SDK提供方、App开发者一起合作,进一步把数据安全做得更好。

“数据安全与个人信息保护论坛”还围绕第三方SDK的数据合规治理开展了圆桌对话,探讨了SDK与App之间的博弈。TalkingData法务总监葛梦莹作为嘉宾参与了该圆桌对话,与来自北京大学、信通院安全研究所、环球律所的专家以及来自字节跳动、完美世界、美团点评、小米以及极光的企业代表,共同对App与SDK之间的共生问题、SDK与App合作过程中可能存在的安全问题以及如何在实践中解决上述问题进行了探讨。环球律所数据合规团队合伙人孟洁律师表示,从App开发者和SDK服务提供方这两方面共同探索解决方案,也是此次撰写白皮书的初衷。

作为国内领先的数据服务提供商,TalkingData一直非常重视数据的安全合规,从技术研发、流程规范等方面不断探索保护数据安全的手段,也积极参与相关行业规范的讨论和制定。针对SDK的安全合规,TalkingData法务总监葛梦莹建议,首先在数据收集上要完全基于开发者的权限,随后在数据传输等方面要采取安全有效的加密措施。例如TalkingData就运用了TDID这种假名化形式进行标识,在数据存储上进行严格的工具化分级存储和管理,通过多级的隔离控制确保数据的操作安全和最小化使用。

点击此处查看并下载全篇《软件开发包(SDK)安全与合规白皮书(2019)》

区块链如何改变金融?

伴随着互联网的高速发展,金融行业也在经历着翻天覆地的变化,从原有的中心化模式开始变得更加扁平化,也更加去中心化。与此同时区块链技术的发展方兴未艾,从比特币的诞生到各种让人眼花缭乱的山寨币、模式币、空气币,无不搅动着万亿金融的庞大市场。

区块链的发展主要解决中心化机构不被完全信任、效率低下、参与门槛高等弊端,希望借助于快速的P2P网络、安全的加密算法、高效的共识机制、以及普遍的参与,让更多的人享受到网络世界带来的安全和便捷。在比特币脚本基础上,提出了智能合约的以太坊则更加向前迈进了一步,通过合约的代码化,自动化执行机制,让区块链更加安全有效的发展起来。各种类型的公有链、联盟链、私有链遍地开花,通过代币的激励机制也不断维系着整个虚拟网络系统;与此同时,各种类型的钱包应用层出不穷,代币模式成为了更多炒作区块链的手段。

Facebook打算发行的Libra就是其中的一种联盟链。Facebook希望使用数字货币的事件在全世界范围内掀起了广泛的讨论,其希望通过发行稳定币、借助遍及世界各地的Facebook应用,让人们触手可及的享受到廉价的金融服务,比如在跨国、跨地区汇款方面,借助多达100个中心节点(均是世界主要金融机构或组织),能够快速完成相关共识确认,实现高效、廉价的汇款服务。但是其在美国听证会遭受的质疑也足以让所有人提高警惕,一个服务20亿人的产品做成了一个金融服务,足以颠覆传统金融机构的努力,也足以摧毁一个微小的主权货币。这就是互联网巨头的虚拟力量,大到足以匹敌在现实中掀起的惊涛骇浪。

区块链的发展首先就是为了解决人们之间的信任问题,普通参与者只需要关心自身能够达成的交易即可,与中心化机构无关,类似于现金交易(几乎同时,交易对手一手交钱、一手交货),不需要去银行网点开通一个账户、再注册开通一堆服务、再存入保证金等。但是Facebook的遭遇也是未来区块链发展不可忽视的重大问题,如果让人人都不需要互信能够达成共识,现有的中心化机构将何去何从?其中介化的服务形式是否会成为阻挡新技术发展的力量?

算法的互信能够通过计算机自动化的执行验证(如闪电网络、侧链、PBFT、DPOS等模式),现有的中心化机构应该大胆的接受新鲜事物,在新事物的发展过程中重新找到自身机构的定位,适应社会的发展。这样普通使用者之间的互信能够快速达成,机构之间通过部分的联盟链形式也能够快速达成共识(更快、更稳定、更廉价的共识机制),为自身带来更多的机会和收益(深耕用户需求)。

区块链解决的第二个问题是现有的金融交易效率低下,以异地汇款为例,普通用户需要去银行开通账户、还得知道对方的银行账户,然后交易,通过银行内部或者清算机构的网络进行清算,如果是跨国转账还需银行之间通过Swift协议进行交易,这样需要的时间更长、成本更高、对用户来说体验效果也较差。对于公有链,其全网的共识是通过算法的改进能够显著提高速度,通过优化共识机制和安全协议,来解决高TPS问题,最终完全有可能实现秒级的交易。

区块链解决的第三个问题是参与门槛,在网络等基础设施完善的今天,想要参与金融活动,还是需要去网点进行开户、做认证、开通一些互联网的服务,对于城市中不愿意下楼的人来说,这也算是一种负担了。通过更广泛的链接(在任何地方都能够通过某种设备进行网络接入),另外通过广泛的参与(如轻量级共识节点),能够将整个网络的交易成本以交易字节长度形式进行结算,这当然也包括了需要达成共识的节点的字节费用。

区块链技术解决了广泛的金融参与、非中心化的网络共识、快速安全的交易,接下来将实现的是现有的货币数字化(正是人民银行研究的方向)、身份认证便捷(所有参与者的快速身份认证)、实时交易(高TPS)、区块体溯源(区块大小和区块复杂度)、网络安全(账户及交易安全)、高效共识算法(DPOS等机制)。

区块链的发展会带来更多的机遇,目前已经在一些如电子发票、法律文书判决、农产品溯源、知识产权保护、跨境汇款等场景进行了应用,未来还有广阔的空间有待我们去探索。


作者:TalkingData 房龙江

封面图来源于网络,如有侵权,请联系删除

掌握这30个知识点,数据挖掘这件事你能做的更好

想要数据产生价值,那么数据分析和数据挖掘是必不可少的两个关键点,数据挖掘是指在大量的数据中挖掘出信息,通过认真分析来揭示数据之间有意义的联系、趋势和模式。而数据挖掘技术就是指为了完成数据挖掘任务所需要的全部技术。

下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。

1. 数据、信息和知识是广义数据表现的不同形式。 

2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识。

3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘。

4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理,数据挖掘以及模式评估等基本阶段。

5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型。

6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。

7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。

8. 从使用的主要技术上看,可以把分类方法归结为四种类型:

  • 基于距离的分类方法
  • 决策树分类方法
  • 贝叶斯分类方法
  • 规则归纳方法

9. 关联规则挖掘问题可以划分成两个子问题:

  • 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。
  • 生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。

10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:

  • 数据库等信息技术的发展
  • 统计学深入应用
  • 人工智能技术的研究和应用

11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:

  • 准确性:挖掘出的规则必须反映数据的实际情况。
  • 实用性:挖掘出的规则必须是简洁可用的。
  • 新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。

12. 约束的常见类型有:

  • 单调性约束
  • 反单调性约束
  • 可转变的约束
  • 简洁性约束

13. 根据规则中涉及到的层次,多层次关联规则可以分为:

  • 同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。
  • 层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规则。

14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。

  • 划分法:基于一定标准构建数据的划分。
  • 属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
  • 层次法:对给定数据对象集合进行层次的分解。
  • 密度法:基于数据对象的相连密度评价。
  • 网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。
  • 模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

15. 类间距离的度量主要有:

  • 最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。
  • 最长距离法:定义两个类中最远的两个元素间的距离为类间距离。
  • 中心法:定义两类的两个中心间的距离为类间距离。
  • 类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。

16. 层次聚类方法具体可分为:

  • 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。
  • 分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
  • 层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。

17. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:

  • 关键词检索:最简单的方式,它和传统的搜索技术类似。
  • 挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。
  • 信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。
  • 自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。

18. 在web访问挖掘中常用的技术:

  • 路径分析:路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。
  • 关联规则发现:使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。
  • 序列模式发现:在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
  • 分类:发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。
  • 聚类:可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。

19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:

  • 数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。
  • 数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。
  • 通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。

20. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略:

  • 减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。
  • 加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。
  • 先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。
  • 先减后加策略:道理同先加后减,也是为了处理属性间的相关性。

21. 数据挖掘定义有广义和狭义之分:

从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

22. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。

23. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

24. K-means算法的性能分析:

  • 主要优点:是解决聚类问题的一种经典算法,简单、快速;对处理大数据集,该算法是相对可伸缩和高效率的;当结果簇是密集的,它的效果较好。
  • 主要缺点:在簇的平均值被定义的情况下才能使用,可能不适用于某些应用;必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果;不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。

25. ID3算法的性能分析:

  • ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。
  • ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。
  • ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。

26. Apriori算法有两个致命的性能瓶颈:

  • 多次扫描事务数据库,需要很大的I/O负载。
  • 对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。
  • 可能产生庞大的侯选集。
  • 由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

27. 改善Apriori算法适应性和效率的主要的改进方法有:

  • 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  • 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

  • 异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。
  • 数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。
  • 动态变化的应用环境:
  • Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。
  • 这种高变化也体现在页面的动态链接和随机存取上。
  • Web上的用户是难以预测的。
  • Web上的数据环境是高噪音的。

29. 简述知识发现项目的过程化管理I-MIN过程模型:

  • MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。
  • IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。
  • IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。
  • IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。
  • IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。
  • IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。
  • IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

30. 改善Apriori算法适应性和效率的主要的改进方法有:

  • 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  • 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

本文转载自:数据管道

原作者:佚名

封面图来源于网络,如有侵权,请联系删除

100多个名词解释,送给做数据分析的你!

有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。为了便于大家区分,今天小编就来盘点一下数据分析常用的术语解释。建议大家收藏起来方便查看。

按照以下三类进行汇总。

  • 互联网常用名词解释
  • 统计学名词解释
  • 数据分析名词解释

一、互联网常用名词解释

1、PV(Page View)页面浏览量

指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。

2、UV(Unique Visitor)独立访客

指来到网站或页面的用户总数,这个用户是独立的,同一用户不同时段访问网站只算作一个独立访客,不会重复累计,通常以PC端的Cookie数量作为统计依据。

3、Visit 访问

指用户通过外部链接来到网站,从用户来到网站到用户在浏览器中关闭页面,这一过程算作一次访问。

Visit可重复累计,比如我打开一个网站又关闭,再重新打开,这就算作两次访问。

4、Home Page 主页

指一个网站起主目录功能的页面,也是网站起点。通常是网站首页。

5、Landing Page 着陆页

指用户从外部链接来到网站,直接跳转到的第一个页面。比如朋友给我发了一个介绍爆款T恤的淘宝链接,我点开会直接跳转到介绍T恤的那个页面,而不是淘宝网众多其他页面之一,这个介绍T恤的页面可以算作是着陆页。

6、Bounce Rate 跳出率

指用户通过链接来到网站,在当前页面没有任何交互就离开网站的行为,这就算作此页面增加了一个“跳出”,跳出率一般针对网站的某个页面而言。

跳出率=在这个页面跳出的用户数/PV

7、退出率

一般针对某个页面而言。指用户访问某网站的某个页面之后,从浏览器中将与此网站相关的所有页面全部关闭,就算此页面增加了一个“退出“。

退出率=在这个页面退出的用户数/PV

8、Click 点击

一般针对付费广告而言,指用户点击某个链接、页面、banner的次数,可重复累计。比如我在PC端看到一则新闻链接点进去看了一会就关了,过了一会又点进去看了一遍,这就算我为这篇新闻贡献两次点击。

9、avr.time 平均停留时长

指某个页面被用户访问,在页面停留时长的平均值,通常用来衡量一个页面内容的质量。

avr.time=访客数量/用户总停留时长

10、CTR 点击率

指某个广告、Banner、URL被点击的次数和被浏览的总次数的比值。一般用来考核广告投放的引流效果。

CTR=点击数(click)/被用户看到的次数

11、Conversion rate 转化率

指用户完成设定的转化环节的次数和总会话人数的百分比,通常用来评价一个转化环节的好坏,如果转化率较低则急需优化该转化环节。

转化率=转化会话数/总会话数

12、漏斗

通常指产生目标转化前的明确流程,比如在淘宝购物,从点击商品链接到查看详情页,再到查看顾客评价、领取商家优惠券,再到填写地址、付款,每个环节都有可能流失用户,这就要求商家必须做好每一个转化环节,漏斗是评价转化环节优劣的指标。

13、投资回报率(ROI:Return On Investment )

反映投入和产出的关系,衡量我这个投资值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。

其计算公式为:投资回报率(ROI)=年利润或年均利润/投资总额×100%,通常用于评估企业对于某项活动的价值,ROI高表示该项目价值高。

14、重复购买率

指消费者在网站中的重复购买次数。

15、Referrer 引荐流量

通常指将用户引导至目标页面的URL(超链接)。在百度统计中,引荐流量叫做“外部链接”。

16、流失分析(Churn Analysis/Attrition Analysis)

描述哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

17、顾客细分&画像(Customer Segmentation & Profiling)

根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。

18、顾客的生命周期价值 (Lifetime Value, LTV)

顾客在他/她的一生中为一个公司产生的预期折算利润。

19、购物篮分析(Market Basket Analysis)

识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品,为陈列商品的决策提供依据等。

20、实时决策(Real Time Decisioning, RTD)

帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。

21、留存/顾客留存(Retention / Customer Retention)

指建立后能够长期维持的客户关系的百分比。

22、社交网络分析(Social Network Analysis, SNA)

描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点,而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法,既是数学的又是视觉的。

23、生存分析(Survival Analysis)

估测一名顾客继续使用某业务的时间,或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存,并引入合适的忠诚度政策。

二、统计学名词解释

1、绝对数和相对数

绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。

相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:

相对数=比较值(比数)/基础值(基数)

2、百分比和百分点

百分比:是相对数中的一种,他表示一个数是另一个数的百分之几,也成为百分率或百分数。百分比的分母是100,也就是用1%作为度量单位,因此便于比较。

百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。

3、频数和频率

频数:一个数据在整体中出现的次数。

频率:某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。

4、比例与比率

比例:是指在总体中各数据占总体的比重,通常反映总体的构成和比例,即部分与整体之间的关系。

比率:是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。

5、倍数和番数

倍数:用一个数据除以另一个数据获得,倍数一般用来表示上升、增长幅度,一般不表示减少幅度。

番数:指原来数量的2的n次方。

6、同比和环比

同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。

环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。

7、变量

变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。

8、连续变量

在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:年龄、体重等变量。

9、离散变量

离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。

10、定性变量

又名分类变量:观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。可以理解成可以分类别的变量,如学历、性别、婚否等。

11、均值

即平均值,平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。

12、中位数

对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

13、缺失值

它指的是现有数据集中某个或某些属性的值是不完全的。

14、缺失率

某属性的缺失率=数据集中某属性的缺失值个数/数据集总行数。

15、异常值

指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。

16、方差

是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

17、标准差

中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

18、皮尔森相关系数

皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

19、相关系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔森相关系数。

20、特征值

特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设A是向量空间的一个线性变换,如果空间中某一非零向量通过A变换后所得到的向量和X仅差一个常数因子,即AX=kX,则称k为A的特征值,X称为A的属于特征值k的特征向量或特征矢量。

三、数据分析名词解释

A

聚合(Aggregation):搜索、合并、显示数据的过程。

算法(Algorithms):可以完成某种数据分析的数学公式。

分析法(Analytics):用于发现数据的内在涵义。

异常检测(Anomaly detection):在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。

匿名化(Anonymization):使数据匿名,即移除所有与个人隐私相关的数据。

分析型客户关系管理(Analytical CRM/aCRM):用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。

B

行为分析法(Behavioural Analytics):这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。

批量处理(Batch processing):尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

C

分类分析(Classification analysis):从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

云计算(Cloud computing):构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。

集群计算(Cluster computing):这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

聚类分析(Clustering analysis):它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage):在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

对比分析(Comparative analysis):在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。

相关性分析(Correlation analysis):是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。

D

仪表板(Dashboard):使用算法分析数据,并将结果用图表方式显示于仪表板中。

数据聚合工具(Data aggregation tools):将分散于众多数据源的数据转化成一个全新数据源的过程。

数据分析师(Data analyst):从事数据分析、建模、清理、处理的专业人员。

数据库(Database):一个以某种特定的技术来存储数据集合的仓库。

数据湖(Data lake):数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

暗数据(Dark Data):基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

数据挖掘(Data mining):数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。

数据中心(Data centre):一个实体地点,放置了用来存储数据的服务器。

数据清洗(Data cleansing):对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据质量(Data Quality):有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

数据订阅(Data feed):一种数据流,例如Twitter订阅和RSS。

数据集市(Data Mart):进行数据集买卖的在线交易场所。

数据建模(Data modelling):使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

数据集(Data set):大量数据的集合。

数据虚拟化(Data virtualization):数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

判别分析(Discriminant analysis):将数据分类,按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

分布式文件系统(Distributed File System):提供简化的,高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases):又称为文档数据库,为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

E

探索性分析(Exploratory analysis):在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

提取-转换-加载(ETL:Extract,Transform and Load):是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

G

游戏化(Gamification):在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

图形数据库(Graph Databases):运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。

网格计算(Grid computing):将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

H

Hadoop:一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

Hadoop数据库(HBase):一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。

HDFS:Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

高性能计算(HPC:High-Performance-Computing):使用超级计算机来解决极其复杂的计算问题。

I

内存数据库(IMDB:In-memory):一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。

物联网(IoT):最新的流行语是物联网(IOT)。IOT通过互联网将嵌入式对象(传感器,可穿戴设备,汽车,冰箱等)中的计算设备进行互连,并且能够发送以及接收数据。IOT生成大量数据,提供了大量大数据分析的机会。

K

键值数据库(Key-Value Databases):数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

L

负载均衡(Load balancing):将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

位置信息(Location data):GPS信息,即地理位置信息。

日志文件(Log file):由计算机系统自动生成的文件,记录系统的运行过程。

M

M2M数据(Machine 2 Machine data):两台或多台机器间交流与传输的内容。

机器数据(Machine data):由传感器或算法在机器上产生的数据。

机器学习(Machine learning):人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

Map Reduce:是处理大规模数据的一种软件框架(Map:映射,Reduce:归纳)。

大规模并行处理(MPP:Massivel yParallel Processing):同时使用多个处理器(或多台计算机)处理同一个计算任务。

元数据(Meta data):被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。

多维数据库(Multi-Dimensional Databases):用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

多值数据库(MultiValue Databases):是一种非关系型数据库(NoSQL),一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

N

自然语言处理(Natural Language Processing):是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。

网络分析(Network analysis):分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。

NewSQL:一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库。

NoSQL:顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

O

对象数据库(Object Databases):(也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象。

基于对象图像分析(Object-based Image Analysis):数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。

操作型数据库(Operational Databases):这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问、收集、检索公司内部的具体信息。

优化分析(Optimization analysis):在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。

本体论(Ontology):表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)

异常值检测(Outlier detection):异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

联机分析处理(On-Line Analytical Processing,OLAP):能让用户轻松制作、浏览报告的工具,这些报告总结相关数据,并从多角度分析。

P

模式识别(Pattern Recognition):通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测。

平台即服务(PaaS:Platform-as-a-Service):为云计算解决方案提供所有必需的基础平台的一种服务。

预测分析(Predictive analysis):大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。

公共数据(Public data):由公共基金创建的公共信息或公共数据集。

Q

数字化自我(Quantified Self):使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为。

R

R:是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

再识别(Re-identification):将多个数据集合并在一起,从匿名化的数据中识别出个人信息。

回归分析(Regression analysis):确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)。

实时数据(Real-time data):指在几毫秒内被创建、处理、存储、分析并显示的数据。

推荐引擎(Recommendation engine):推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

路径分析(Routing analysis):–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的。

S

半结构化数据(Semi-structured data):半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

结构化数据(Structured data):可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

情感分析(Sentiment Analysis):通过算法分析出人们是如何看待某些话题。

信号分析(Signal analysis):指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

相似性搜索(Similarity searches):在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据。

仿真分析(Simulation analysis):仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优。

软件即服务(SaaS:Software-as-a-Service):基于Web的通过浏览器使用的一种应用软件。

空间分析(Spatial analysis):空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律。

SQL:在关系型数据库中,用于检索数据的一种编程语言。

流处理(Stream processing):流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

T

时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。

拓扑数据分析(Topological Data Analysis):拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。

交易数据(Transactional data):随时间变化的动态数据

透明性(Transparency):–消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

文本挖掘(Text Mining):对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。

U

非结构化数据(Un-structured data):非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

V

价值(Value):(译者注:大数据4V特点之一)所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

可变性(Variability):也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。

多样(Variety):(译者注:大数据4V特点之一)数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据

高速(Velocity):(译者注:大数据4V特点之一)在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。

真实性(Veracity):组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。

可视化(Visualization):只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。

大量(Volume):(译者注:大数据4V特点之一)指数据量,范围从Megabytes至Brontobytes。

W

天气数据(Weather data):是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据。

网络挖掘/网络数据挖掘(Web Mining / Web Data Mining):使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

X

XML数据库(XML Databases):XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化。

内容来自:DataHunter

本文转载自:大数据分析和人工智能

配图来源于网络,如有侵权,请联系删除

论机器学习模型的可解释性

在2019年2月,波兰政府增加了一项银行法修正案,该修正案赋予了客户在遇到负面信用决策时可获得解释的权利。这是GDPR在欧盟实施的直接影响之一。这意味着如果决策过程是自动的,银行需要能够解释为什么不批准贷款。

在2018年10月,“亚马逊人工智能招聘工具偏向男性”的报道登上了全球的头条新闻。亚马逊的模型是基于有偏见的数据进行训练的,这些数据偏向于男性应聘者。该模型构建了不利于含有“Women’s”一词的简历的规则。

“不理解模型预测”产生的影响

上述两个例子的共同之处在于,银行业中的模型和亚马逊构建的模型都是非常复杂的工具,即所谓的黑盒分类器,它们不提供简单且可解释的决策规则。

如果金融机构想要继续使用基于机器学习的解决方案,就必须投资于模型可解释性的研究。这些机构可能确实会这么做,因为这样的算法在预测信用风险方面会更准确。另一方面,如果模型经过适当的验证和理解,亚马逊本可以节省大量资金并避免负面报道。

为什么是现在?数据建模的趋势

自2014年以来,机器学习一直保持在Gartner的Hype Cycle(技术成熟度曲线)的最顶端,直至2018年被深度学习(机器学习的一种形式)所取代,这表明其普及尚未达到峰值。

来源:https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/

机器学习增长预计将进一步加速。根据Univa的调查报告,96%的公司预计在未来两年内将机器学习用于生产。

其背后的原因是:广泛的数据收集、大量计算资源的可获得性以及活跃的开源社区。机器学习采用的增长伴随着解释性研究的增加,而研究的增加是由像GDPR这样的法规、欧盟的“解释权”、对(医疗、自动驾驶汽车)安全性以及可重现性和偏见的担忧,或者最终用户的期望(调试优化模型或者学习一些关于研究对象的新知识)所驱动的。

来源:http://people.csail.mit.edu/beenkim/papers/BeenK_FinaleDV_ICML2017_tutorial.pdf

黑盒算法可解释性的可能性

作为数据科学家,我们应该能够向最终用户提供有关模型如何工作的解释。但是,这并不一定意味着理解模型的每个部分或需要根据模型生成一组决策规则。

同时,如下情况也不需要解释模型:

  • 问题被完美研究
  • 模型结果没有后果
  • 最终用户理解模型可能会给系统带来博弈风险

如果我们看看2018年Kaggle所做的机器学习和数据科学调查结果,大约60%的受访者认为他们可以解释大多数机器学习模型(有些模型仍难以解释)。用于机器学习理解的最常用方法,是通过查看特征重要性和特征相关性来分析模型特征。

特征重要性分析提供了对模型学习内容以及哪些因素可能重要的初步的良好洞察。但是,如果特征之间是相关的则该方法会不太可靠。只有模型变量可解释时,它才能提供良好的洞察。对于许多GBMs库(Gradient Boosting Machine),绘制关于特征重要性的图表非常容易。

对于深度学习来说,情况要复杂得多。使用神经网络时,可以查看权重,因为它们包含关于输入的信息,但信息是压缩的。此外,你只能分析第一层的连接,因为在更深的层次上它太复杂了。

难怪2016年LIME(局部可解释的模型-可解释的说明)论文在NIPS会议上发表时,它产生了巨大的影响。LIME的模式是在可解释的输入数据上构建一个易于理解的白盒模型去局部模拟一个黑盒模型。已经证明它在为图像分类和文本提供解释方面获得很棒的结果。但是,对于列表数据,很难找到可解释的特征,其局部解释可能会产生误导。

LIME通过Python(lime和Skater)和R(lime包和iml包、live包)实现,并非常容易使用。

另一个有前景的想法是SHAP(Shapley Additive Explanations)。它基于博弈论。它将特征当做玩家、将模型当做联盟,用Shapley值说明各特征分别带来了怎样的“影响(Payout)”。该方法公平地衡量(各特征的)作用,易于使用并提供吸引人的可视化实现。

以R提供的DALEX软件包(描述性机器学习说明)提供了一组工具,可帮助了解复杂模型的工作原理。使用DALEX,可以创建模型解释器并通过可视化进行检查,例如分解绘图。你可能也会对DrWhy.Ai感兴趣,它和DALEX是由同一组研究人员开发的。

实际用例

检测图片上的对象

图像识别已被广泛使用,其中在自动驾驶汽车中用于检测汽车、交通信号灯等,在野生动物保护中用于检测图像中的某种动物,或在保险中用于检测毁于洪涝的农作物。

我们将使用原始LIME论文中的“哈士奇 vs 狼的例子”来说明模型解释的重要性。该分类器的任务是识别图片上是否有狼,但它错误地将西伯利亚哈士奇分类为狼。感谢LIME的研究人员能够识别图片上的哪些区域对模型比较重要,最终发现如果图片包含雪就会被归类为狼。

该算法使用了图片的背景并完全忽略了动物的特征。模型原本应该关注动物的眼睛。由于这一发现,就可以修复模型并扩展训练样本以防止推理为雪=狼。

将分类作为决策支持系统

阿姆斯特丹UMC的重症监护室希望预测出院时患者再入院和/或死亡的可能性。目标是帮助医生选择将病人移出ICU的合适时机。如果医生了解模型正在做什么,就更有可能在做最终判断时使用它的建议。

为了展示如何使用LIME解释这种模型,我们可以看另一个旨在早期预测ICU死亡率的研究。其使用了随机森林模型(黑盒模型)预测死亡率情况,使用LIME局部解释每个患者的预测分数。

来源:https://www.researchgate.net/publication/309551203_Machine_Learning_Model_Interpretability_for_Precision_Medicine

来自所选样本中的一个患者被预测具有高死亡概率(78%)。导致死亡的模型特征为更高的房颤次数和更高的乳酸水平,这与当前的医学理解是一致的。

人类和机器 – 完美搭配

为了在构建可解释的AI方面取得成功,我们需要将数据科学知识、算法和最终用户的专业知识结合起来。创建模型之后,数据科学的工作还没有结束。这是一个可迭代的、经由专家提供反馈闭环的通常很漫长的过程,以确保结果是可靠的并且可被人类所理解。

我们坚信,通过结合人类的专业知识与机器的性能,我们可以获得最佳结论:改进机器结果并克服人类直觉的偏差。


参考资料:

  • On-line and web-based: Analytics, Data Mining, Data Science, Machine Learning education:https://www.kdnuggets.com/education/online.html
  • Software for Analytics, Data Science, Data Mining, and Machine Learning:https://www.kdnuggets.com/software/index.html

相关信息:

  • Are BERT Features InterBERTible:https://www.kdnuggets.com/2019/02/bert-features-interbertible.html
  • Artificial Intelligence and Data Science Advances in 2018 and Trends for 2019:https://www.kdnuggets.com/2019/02/ai-data-science-advances-trends.html
  • The year in AI/Machine Learning advances: Xavier Amatriain 2018 Roundup:https://www.kdnuggets.com/2019/01/xamat-ai-machine-learning-roundup.html

作者:Olga Mierzwa-Sulima,Appsilon高级数据科学家和项目负责人

译者:TalkingData 钟大伟

原文地址:https://www.kdnuggets.com/2019/05/interpretability-machine-learning-models.html

封面图来源于网络,如有侵权,请联系删除

TalkingData 高铎: 差异化人群特征是网易睿享生活圈的价值体现

8月13日下午,“睿享生活,未来可圈”2019网易传媒态度营销峰会在上海电影集团盛大举行。此次峰会为现场及直播平台的观众呈现了最年轻时尚的设计、最潮流跨界的形式、最吸引人的营销体验。网易传媒全新升级圈层营销体系“睿享生活圈”,网易大数据中台 “易境”精彩亮相,亮点干货层出不穷。TalkingData副总裁高铎在现场发布主题为《发现深层用户价值 网易睿享生活圈洞察》的研究报告,并为现场来宾分享最新的行业观点。

高铎表示:“以东直门交通枢纽为例,公交长途人群、地铁人群以及航旅人群虽然处于相同的地理空间,但他们的行为特征与圈层大相径庭。而对于网易新闻来说也可以这样理解,各类用户处于相同的网络空间,但他们的行为特征亦迥然不同,这也衍生出了‘睿享生活圈’,以及圈层下汽车、房产、学习教育与金融人群的差异化特征。”

此次TalkingData与网易强强合作,以数据为基础,价值内容驱动,实现全网分发的营销资源体系,同时挖掘“睿享生活圈”人群差异化特征,并发布《发现深层用户价值 网易睿享生活圈洞察》研究报告,清晰地从“用户”、“场景”、“市场”三个维度挖掘不同的圈层的差异化,为网易内容营销圈层精准化触达奠定了基础。”

网易睿享生活圈洞察 用户价值解读

从内容消费到不同圈层的关联性离不开数据背后的探索与挖掘,通过数据我们发现,睿享生活圈人群有一定的地域特征,他们集中在经济发达地区和广大沿海地带,以一线和新一线等大城市为中心。高铎认为“从城市上来看有两个特征,一类是像北京、上海、广州这类经济发达的城市,另一类是像云南、贵州这种生活慢节奏、“会玩”的城市,他们更懂得追求与享受生活。”

对物质和精神文化需求强劲是消费升级时代潜在力量

从年龄区间、移动互联网特征洞察中我们发现,睿享生活圈在19-25岁区间比重较高, 有车指数以及白领指数和金融指数均高于移动互联网人群,其中有车指数特征明显。在应用偏好方面,像海外购物、点评等类型应用有明显的TGI偏好,从侧面反映了这类人群虽然在该领域是小众,但整体的偏好度和特征较为明显,或是该圈层的意见领袖。总体来说,他们年轻有为,对物质和精神文化需求强劲,是消费升级时代潜在力量。

热衷运动健身具备房产潜力向往智慧生活

通过数据挖掘,我们发现“睿享生活圈”他们热衷运动健身,TGI 指数高达223(参考值移动互联网为100),从内容营销角度来看,“健身、运动”的话题或是一个可深入发掘的切入点。在房产装修/智能安防以及智能硬件方面有明显偏好特征,我们可以从两个方面进行解读,从房产装修的维度看,他们对于购房有较强的潜在需求。另外,从智能安防和智能硬件的角度来分析,他们向往智慧生活,并且“扎根”于互联网。

关注汽车资讯潜在交易市场特征明显

前面提到睿享生活圈有车指数远高于移动互联网人群,通过数据分析得到到四个特征,其一,他们对汽车有较强的兴趣度,“汽车资讯”类应用不仅TGI有着明显优势,在整体覆盖率上对比移动互联网人群也是遥遥领先。其二,圈内存在汽车交易的潜在市场,在“驾考摇号”和“汽车交易”方面有明显数据优势。其三,对电动汽车强关注度,基于这点我们可以从两个方向进行探讨,第一,电动汽车与目前地域性的摇号政策有较强关系;第二,电动汽车智能化“车联网”是普遍趋势,这与睿享生活圈偏好智能产品的特征或有一定倾向性。其四,从”违章车险“、”行车辅助“、”加油油耗“这三大类别应用高覆盖、高偏好的特点,再次印证有睿享生活圈有车人群偏高的特征。

热衷知识经验提升职场社交及财富积累

在房产、汽车、智能硬件这些物质特征外,我们再来看看睿享生活圈人群的精神世界,他们通过”百科问答“,“有声听书”类应用获取知识所需,另外,在职场社交以及语言学习应用上有较高的覆盖及偏好,专注于个人成长。同时,他们对于证券和基金的关注有明显需求。

汽车、房产、学习教育、金融差异化特质显著

随后高铎针对睿享生活圈中的汽车、房产、学习教育、金融四大人群进行了数据差异化分析与解读,我们这里用人群标签进行简单概括,睿享生活圈汽车人群有着“小资格调”、“年轻有为”的标签特征,他们追求科技和时尚、接受新能源汽车,同时年轻有为;房产人群偏向“科技时尚”,”态度精致“他们注重生活品质、喜欢房产装潢,关心天下大事;学习教育人群注重“语言学习”和“文化圈层”,他们充满正能量、学习动力强,具有文化圈子;金融人群更懂得“精打细算”,“生活格调”,他们投资意愿强烈、生活讲究,消费更注重品质。

更全面的圈层特征及商业价值还需TalkingData和网易后续深入合作与探索。借助阶段性数据分析,我们清晰地从用户、场景、市场三个维度了解,不同的圈层的差异化。相信借助网易的内容生态、泛资讯与场景体验将会做到更精准化的内容营销与触达。TalkingData还将继续发挥数据资源和中台能力,与更多合作伙伴共同探索并构建基于大数据和领先智能技术的场景商业应用,帮助更有效的实现商业价值。

当代减肥人群鉴别指南

7月不减肥,8月徒伤悲。夏天,是一个特别容易对身材增加仇恨值的季节。夜跑、走圈、撸铁,关于减肥的“十八般武艺”,也成为了熟络同事、朋友聚会时的热门话题。

身边也有不少喊着减肥口号的人,TA真的是吗?其实吧,想搞清楚这事儿也没那么复杂。

智能移动终端的高度普及,使每个人无形中留下数据资产。今儿,也就促成了咱们一起“数”说减肥人群的机会~~~~

01这可能是你认为的减肥人群的饮食

看似简单的“管住嘴,迈开腿”是圈内不成文的减肥“圣经”,通过电商行为分析我们发现,其实他们没有想象中那么克制。根据减肥人群近3个月商品购买情况,饼干蛋糕、休闲零食、坚果炒货……

既向往健康瘦身,又控制不住放纵,在减肥与口腹之欲间爱恨纠缠。越认为简单的东西,往往越难做到。天后蔡依林的《妥协》,必是他们最爱的歌。

02这可能是你理解的减肥人群十二时辰

上海人十二时辰在思考这是个什么垃圾,成都人十二时辰是麻将桌与火锅之间的周旋,根据24小时应用TOP50活跃分布,减肥人十二时辰则是在唠嗑、看片、听歌、手游,互相穿插中度过。

感谢受众TOP20 App象限图数据,给了我们减肥人群真在减肥的痕迹。减肥人群所用TOP20 App大致分为:社交、视频、音乐,这三类。仅有Keep作为运动类App孤军入围,但其活跃率与覆盖率在TOP20 App中也处于较低地位。这是否也侧面反映出减肥实属迫不得已,休闲娱乐才是大家心中的“白月光”。

根据减肥人群移动应用偏好TGI曲线指数,他们对新零售、移动医疗、快递物流、房产服务、健康美容有明显偏好特征,TGI指数均超过200。其中,新零售TGI指数高达333。综合App象限数据和移动应用TGI曲线,是否也说明了减肥人群有一定经济实力、十分注重外表和健康。

03这可能是你眼中的大爷&大妈

减肥人群中,女性占比65.48%,男性占比34.52%。性别以女性为主,这也印证了减肥的确是贯穿女性一生的必修课程之一。

根据TalkingData智能营销云数据显示,虽然26岁-35岁减肥人群占比最高,但大于55岁的人群对减肥关注度更高,其TGI指数为281。肥胖易导致中老年人“三高”风险,退休后闲暇时间,减肥锻炼身体也是不错的选择。也许,等活到了大爷、大妈的年纪,才会透彻领悟没有了健康,一切都将是零。

04这可能是你对穿运动装的人拍照的看法

虽然你猜对了减肥人群乐于拍照,这也只是他们的一面而已。根据TalkingData智能营销云数据,减肥人群对具有音乐、美颜、摄影属性的智能移动终端十分偏好,TGI指数均在100以上,其中音乐偏好度最高,TGI指数为130。

也许当你看到他们在朋友圈发美颜过的减肥照片时,他们正听着《妥协》,为即将抵达烧烤摊,吃9分熟大腰子做着心理铺垫。

05这或许是你对减肥人群的固有印象

洁面后,敷面膜已成为判断当代人是否精致的标准。根据TalkingData智能营销云电商行为数据分析,减肥人群在面部护肤类型产品中,十分钟爱面膜,对套装/礼盒也十分偏爱。减肥人群中高级白领占比33.14%、小白领占比31.7%、蓝领占比8.65%,可以说收入较高的“领圈”占据了减肥人群的半壁江山。

看过以上减肥人群图鉴指南后,你是否还保留对减肥人群的原有印象呢?欢迎在下方留言,你对减肥人群的看法和你还想了解哪些人群?也许在下一期内容中,就会为你呈现哦~~

注:以上数据均来源于TalkingData智能营销云,点此申请试用与了解

撰文:阳阳

本文转载自:TalkingData移动观象台