北卡州立大学与中国人民大学签署校级合作协议

2018年7月3日上午,北卡罗来纳州立大学与中国人民大学正式签署校级合作协议,致力于专业数据人才的教育项目共建。

北卡罗来纳州立大学拥有深厚的统计分析人才教育积淀,同时也是分析软件SAS的诞生地,在专业数据人才的培养上,除了传统的理论学习,更加注重数据的实战训练。其首创的数据分析硕士项目(Master of Science in Analytics,简称MSA)被2014年《哈佛商业评论》评为全美“大数据”专业榜首,常年居于北美专业硕士就业率和毕业生平均薪资排名前列。

中国人民大学在统计学学科底蕴深厚,位列高校前茅,其为迎接大数据时代挑战而成立的统计与大数据研究院致力于构建世界一流的统计与数据学科,在学科前沿原创性研究与高水平学科交叉人才的培养上更具前瞻意识。

本次合作双方旨在推动数据人才教育,通过引入领先的专业数据人才学位项目,结合TDU提供的数据实训平台与数据实战行业指导等内容,共同推动国内专业数据人才的培养进程。

Markdown

Markdown

推广期,如何准确衡量渠道的质与量?

对于开发者而言,渠道推广是获客的重要一步。为了统计不同渠道的推广效果,渠道分析是开发者的必然选择。

Markdown

渠道虽然有免费和付费之分,但在推广期都会消耗开发者成本。由细分领域组成的免费长尾渠道,虽流量不可小觑,但耗费大量发包时间。而涉及到分层或买量的头部渠道,却是资本和时间双重成本的叠加。虽然开发者付出了时间与金钱,但并不意味着,此举就是有用功。

开发者无论接入第三方数据分析服务还是自行跑码统计,通过有效指标评估投放渠道质量,是优化渠道、控制成本的有效手段。作为是国内领先的第三方数据智能服务商,TalkingData App Analytics的渠道分析功能,可帮助开发者收集、处理、分析,形成客观的渠道数据报表。使开发者掌握各渠道表现,敏捷优化/改善推广方案,持续发现流量洼地降低成本。

Markdown

渠道分析功能图

如何使用渠道分析功能

App 开发时,集成TalkingData App Analytics SDK即可获得渠道分析功能,帮助开发者实时了解各渠道从用户获取再到参与留存、效果转化等诸多环节的数据表现。

Markdown

TalkingData App Analytics

渠道分析功能特点

1.全平台兼容

支持全部开发平台,无需开发者集成多个SDK,不增加包体负担,全渠道数据一览无余;

Markdown

2.数据客观性

①TalkingData是国内领先的第三方数据智能服务商,各渠道实时数据更客观;

②针对渠道带来用户生产的数据,拉长考察时间区间,更有利于对渠道质量甄别;


渠道分析demo演示

3.多维度节约成本

①无需开发成本,集成即用。数据服务稳定,免去开发者维护成本;

②推广渠道质与量双层优化,降低开发者发包时间、推广成本;

TalkingData App Analytics的渠道分析功能,使开发者以数据为依据,抛开个人喜好,把推广重点关注在真优质渠道,而不是局限于有声量的头部渠道和免费的长尾渠道。让开发者结合渠道数据有针对的调整和优化推广策略,助力开发者推广期准确衡量渠道质与量。

Markdown

简明数据科学 第三部分:假设检验

 

昨天的文章中,我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等,今天我们再来看一看机器学习的基石概念之一假设检验

Markdown

著名的物理学家爱德华·特勒曾经引用过:

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题

概念

假设是指用有限的证据作出的想法,它是进一步调查分析的起点。该概念非常简单,但是在实际应用中很强大。在日常生活中,通常按照如下7个步骤进行:

  1. 做出假设;
  2. 初始状态设定;
  3. 确定替代的问题;
  4. 设置验收标准;
  5.  进行基于事实的测试;
  6. 评估结果。评估是否支持初始状态?确定结果不是偶然的?
  7. 达到以下结论之一:拒绝原来的位置以支持替代位置或拒绝原始位置。

Markdown

以一个故事来进一步解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇,这个小镇有其独特之处是,它被称为巫术博物馆。即使现在,那里也有人声称是巫师。伊西尔德和甘道夫就是这样的人。

他们声称自己具有千里眼的超能力,能够透视任何物体,于是一些研究人员想要验证他们的能力,让他们玩一种叫做透视纸牌的游戏。

该游戏的规则如下:

  1. 伊西尔德和甘道夫随机从四副扑克牌中选择10张纸牌;
  2. 他们必须确认每张纸牌属于那副牌;
  3. 该测试每次重复10次。

在进行此次测试验证之前,已经对正常人进行了测试,得到的结论是正常人能够预测正确的平均次数在6次左右。这个就是本次假设检验的基础,而本次假设检验的目的是统计确定伊西尔德和甘道夫是否是巫师。

第一步:做出假设

不同种类的假设检验需要做出不同的假设。而假设与数据的分布、采样以及线性有关。一些常见的假设如下:

  • 分布: 每种数据都会遵循特定的分布,需要掌握数据中的规律。许多自然发生的数据点如股票市场数据、人体重量和高度、在酒吧喝酒的人的薪水等等都近似正态分布。正态分布只是意味着很多观测值都在中间位置,较少的观察值大于或小于中间值。中间值也称为中位数。
  • 采样: 假设为测试采样的数据是随机选择的,没有偏见。

对于上述透视纸牌游戏,以下假设是正确的:

  • 在透视卡牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为这些纸牌是随机选择的。随机选择纸牌意味着将被挑选的十张纸牌中的每一张都具有被选择用于测试的相同概率。
  • 在该问题中,纸牌没有偏见。

第二步:空假设

空假设是假设验证的初始情况,也就是当下的状态,是拒绝或者失败的立场,在整个假设验证的过程中处于需要验证和测试的位置。

对于上述纸牌游戏来说,空假设如下:

伊西尔德/甘道夫并没有千里眼的能力。

第三步:备用假设

备用假设和空假设正好是相反的。如果统计学获得的证据正好表明备选假设是有效的,那么空假设就是被拒绝的。

对于上述纸牌游戏,备用假设如下:

伊西尔德/甘道夫具有千里眼的能力。

第四步:设置验收标准

空假设和备用假设定义好之后,初始位置为空假设。现在需要设定一个阈值,我们知道一个普通人,即不是巫师的人会在10次中得到正确的六次。如果伊西尔德和甘道夫能够在一次测试中预测超过六张正确的纸牌,那么有更多的证据表明他们确实可能是巫师。有一种度量评估方法叫做t-统计,t-统计估计值远离备选假设越多越合理。

假设检验结果可能会出错。有四种可能的情况:

  1. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们是名巫师;
  2. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们不是巫师;
  3. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们不是巫师;
  4. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们是名巫师。
  5. 测试的结果可能显示结论1和结论2是正确的,结论3和结论4是无效的。

如果结论3属实,这样会导致空假设失效,属于一种误报,此类情况也称为Ⅰ型错误;

如果结论3无效,这样会是的空假设属实,属于一种错误的否定,此类情况称为Ⅱ型错误。

类型所有的统计验证,假设验证也必须处理不确定性,也就是必须处理概率,而概率并没有绝对的。

对于概率来说,需要设定概率层级,以便确定发生I型错误的机会,这个水平被称为显着性水平,使用α表示它。 α越低意味着测试越严格。相对较高的α意味着测试不是那么严格。 α的值是根据假设检验的性质设定的。典型值为0.001,0.05或0.1。

如果所观察到的结果仅仅是偶然的呢?如果这只是一个巧合呢?如果他们在测试进行的那一天刚好幸运呢?这种不确定性需要得到度量,假设检验有一个衡量这个不确定性的指标,p值是该度量。

p值表示为概率。这意味着它的值在0和1之间。p值是在假设为真的假设下偶然观察到的t统计量的概率。

对于透视纸牌游戏,决定如果伊西尔德可以正确猜测超过8张牌,那么备选假设是合理的。他可能确实是一位千里眼。 t统计量是8。

作为一名千里眼人是没有生命危险的。没有人处于危险之中。显着性水平设定为0.05。 α是0.05。

第五步:进行测试

通过重复十次的测试和验证,得到了一些结果。假设统计引擎最终得到如下的结果:

伊西尔德:

  • t-统计:8
  • P值:0.1

甘道夫:

  • t-统计:9
  • P值:0.01

第六步:评估结果

概率(p值)和显着性水平之间的比较产生以下结果:

对于伊西尔德来说:

  • t统计量为8,这意味着,他平均预测了八张牌,比正常人预测的要高。
  • p值是0.1,这意味着观察到的t统计数据归因于偶然的概率是10%。 p值很高。
  • 设定的显着性水平(α)是0.05,转化为5%。
  • p值大于设定的显着性水平,即10%> 5%。

第七步:得出结论

测试已结束,指标是已知的。谁是真正的巫师呢?

对于伊西尔德:p值大于设定的显着性水平(10%> 5%)。尽管平均而言,他已经预测了八张牌;从统计上,结论如下:

  • 伊西尔德的结论:没有实质证据反对空假设,空假设未被拒绝。

对于甘道夫:平均而言,他已经预测了九张牌。,p值低于设定的显着性水平(1%<5%);从统计上,结论如下:

  • 甘道夫的结论:有很好的证据反对空假设,空假设被拒绝,备选假设被接受。

最终,伊西尔德被否认,甘道夫很高兴。然而,伊西尔德也并不那个伤心,测试并没有确定他不是一位具有千里眼的巫师,空假设没有被验证是错误的,也没有证据表明备选假设是不成立的,这意味着没有足够的证据来确定空假设是无效的,在现实中,这样的情况普遍存在。

结语

假设检验是机器学习的基石概念之一,很多评估方法使用假设检验来评估模型的鲁棒性。在我们浏览本系列时,我们将深入探索其构造。

Markdown

简明数据科学 第二部分:统计学习的关键概念

在本系列的第一篇文章中,谈及了数据科学的关键概念和过程,在这篇文章中,会深入一点。首先,将定义什么是统计学习。然后,将深入到统计学习的关键概念,了解统计学习。相信我,很简单。

什么是统计学习

Markdown

根据维基百科,统计学习理论是从统计学和功能分析领域进行机器学习的框架。

机器学习是通过软件应用程序实现的统计学习技术的体现。

这在实践中意味着什么?统计学习是指使我们能够更好地理解数据的工具和技术。那么理解数据意味着什么?

在统计学习的背景下,有两种类型的数据: 可以直接控制功能的独立变量数据; 不能直接控制功能的因变量数据。

  • 无法控制的数据,即因变量需要预测或估计。
  • 更好的理解数据是通过独立变量来更多地了解因变量。例如下面的例子:

假设想根据分配给电视、广播和打印的广告的预算来衡量销售额。分配给电视,广播和打印的预算是可以控制的,但是无法控制的是他们将如何影响销售。于是想将无法控制的数据(销售额)表达为可以控制的数据(广告预算)的功能,揭开这种隐藏的关系。

统计学习则能够揭示隐藏的数据关系,不论是依赖的还是独立的数据之间的关系。

参数和模型

Markdown

运营管理中著名的商业模式之一是ITO模型,即输入-转化-输出(Input-Transformation-Output)模型,有一些输入,这些输入经历一些转化,然后创建出输出。

统计学习也适用于类似的概念,有数据输入,数据输入后经历转化,然后生成需要预测或估计的输出。

而上述的转化引擎部分称之为模型,一些估计输出的函数。

转化过程是数学相关的,将数据输入到特定的数学成分中以估计输出,这些数学成分称为参数

如下例:

决定某人收入的是什么?例如收入是由受教育程度和多年的经验决定的。那么估计收入的模型可能是这样的:

收入 = c + β0 受教育程度 + β1 经验

其中,β0和β1是表示收入函数中教育和经验的参数。而教育和经验是可控的变量,这些可控变量具有不同的含义,他们被称为独立变量,也称之为特征。收入是不可控变量,他们被称为目标

训练与测试(Training and Testing)

Markdown

当你准备异常考试的时候,都做些什么呢?研究、学习、消化知识点、做笔记、不断练习等。这些都是学习和准备未知测试的过程或者工具。

机器学习也使用类似的概念进行学习。数据一般是有限的,因此在使用数据时需要谨慎。模型的构建也需要进行验证,而验证的方法可以参考如下方式:

  1. 将数据集分割为两部分;
  2. 使用其中一部分作为训练数据,让模型从中进行学习,也就是说这部分数据对模型来说是可见的、已知的。这 部分数据集被称为训练数据
  3. 使用另一部分来测试模型,给予模型一部分未知的测试数据,来核查模型的性能。这部分数据称为测试数据

在竞争性考试中,如果准备充分,历史学习有效,那么考试中的表现一般也是令人满意的。同样的,在机器学习中,如果模型很好的学习了训练数据,那么在测试数据上也应该有良好的表现。

一般情况下,在机器学习中,一旦模型在测试数据集上进行测试,就会评估模型的性能。它是根据它估计的输出与实际值的接近程度来评估的。

Markdown

英国着名统计学家George Box曾经引用过:

“All models are wrong; some are useful.”

没有那个模型能够达到100%的准确度,所有的模型都有些错误,这些错误可以从两方面进行衡量

  • 偏差(Bias)
  • 方差(Variance)

下面使用类比来解释这两个维度:

Raj,是一个七岁的孩子,刚刚接触了乘法的概念。他已经掌握了1和2的乘法表格,接下来将挑战3的表格,他非常兴奋,开始了3的乘法的练习,他写下了如下的等式:

  • 3 x 1 = 4
  • 3 x 2 = 7
  • 3 x 3 = 10
  • 3 x 4 = 13
  • 3 x 5 = 16

Raj的同班同学Bob在同一条船上。他的书写结果看起来像这样:

  • 3 x 1 = 5
  • 3 x 2 = 9
  • 3 x 3 = 18
  • 3 x 4 = 24
  • 3 x 5 = 30

让我们从机器学习的角度来研究由Bob和Raj创建的乘法模型。

  • Raj的模型有一个无效的假设,他假设了乘法运算意味着需要在结果后面加1。这个假设引入了偏差误差。假设是一致的,即将1加到输出。这意味着Raj的模型低偏差
  • Raj的模型导致输出始终与实际相距1。这意味着他的模型具有低方差
  • Bob的模型输出结果毫无规律,他的模型输出与实际值偏差很大。没有一致的偏差模式。Bob的模型具有高偏差和高方差

上面的例子是对方差和偏差这一重要概念的粗略解释。

  • 偏差是模型不考虑数据中的所有信息,而持续学习导致错误的倾向。
  • 方差是模型不考虑实际数据情况,而持续进行随机性事物的程度。

偏差 – 方差权衡(Bias-Variance Trade-Off)

Markdown

在初接触数学的时候,每个人可能都会死记硬背一些概念、公式等等,这就是开始的时候,学习的方式。然而如此的方式将面临考试时的问题和背诵的问题不同。问题是数学中的广义概念,显然,在一些考试中,很难完成或者达到理想的分数。

机器学习也是同样的模式。如果模型对特定的数据集学习过多,并试图将该模型应用在未知的数据上,则可能具有很高的误差。从给定的数据集中学习太多称为过拟合。此种情况下,模型难以有效地推广应用于未知的数据。相反的,从给定的数据集中学习太少称为欠拟合。此种情况下,模型非常差,甚至无法从给定的数据中学习。

阿尔伯特·爱因斯坦简洁地概括了这个概念。他说:

“Everything should be made as simple as possible, but no simpler” *

机器学习解决问题的方式是不断的努力寻找到一个恰当的平衡点,创建一个不太复杂但是并不简单的、广义的、相对不准确但是有用的模型。

过拟合的模型显得过于复杂,它在训练数据上表现非常好,但是在测试数据上表现欠佳; 欠拟合的模型又过于简单,它无法在训练数据和测试数据上执行的让人满意; 一个良好的模型是在过拟合和欠拟合之间找到平衡,它表现良好,简单但是有用。

这种平衡行为被称为偏差 – 方差权衡。

结语

  1. 统计学习是复杂机器学习应用的基石。本文介绍统计学习的一些基本概念和基本概念。这篇文章的五大要点是:
  2. 统计学习揭示隐藏的数据关系,依赖和独立数据之间的关系;
  3. 模型是转换引擎,参数是实现转换的要素;
  4. 模型使用训练数据进行学习,使用测试数据进行评估;
  5. 所有模型都是错误的;有些是有用的;
  6. 偏差-方差权衡是一种平衡行为,以找到最佳模型、最佳点。

在本系列的后续文章中,将深入研究机器学习模型的具体内容。敬请期待……

简明数据科学 第一部分:原则与过程

2006年,英国数学家Clive Humbly和Tesco Clubcard的建筑师创造了“数据是新石油”这句话。原话如下:

Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.

iPhone革命,移动经济的增长以及大数据技术的进步创造了一场完美风暴。2012年,HBR发表了一篇文章,将数据科学家放在了新的高度上。数据科学家:21世纪最性感的工作这篇文章将这种“信心人类”称为数据黑客、分析师、传播者和值得信赖的顾问的混合体

如今,几乎每个企业都在强调数据驱动。而机器学习技术的不断进步,正在帮助着企业完成这个目标。在网络上,机器学习相关的资料非常多,但是都太过的技术性并且充斥着大量的高等数学公式等等,让大多数软件工程师难以理解。因此计划编写一系列的文章,使用更加易于理解的方式简化数据科学。

在本文中,将首先介绍数据科学中的基本原理,一般过程和问题类型,对数据科学有一个基本的了解。

数据科学是一个多学科领域。它是以下领域之间的交集:

  • 商业知识
  • 统计学习或称机器学习
  • 计算机编程

本系列文章的重点将是简化数据科学中机器学习方面,而在本文中将首先介绍数据科学中的原理、一般过程和问题的类型等。

关键原则(Key Principles)

Markdown

数据是战略资产:这个概念是一种组织思维。问题:“我们是否使用了我们正在收集和存储的所有数据资产?我们能够从中提取有意义的见解吗?”,相信这些问题的答案是:“没有”。基于云科技的公司本质上都是数据驱动的,将数据视为战略资产是他们的灵魂。然而这种观念对于大多数组织来说都是无效的。

系统的知识提取过程:需要有一个有条不紊的过程来提取数据中的隐藏的见解。这个过程应该有明确的阶段和明确的可交付成果。跨行业数据挖掘标准过程(CRISP-DM)就是这样一个过程。

沉浸在数据中:组织需要投资于对数据充满热情的人。将数据转化为洞察力不是炼金术,而且也没有炼金术士
。他们需要了解数据价值的传播者,并且需要具有数据素养和创造力的传道人。更加需要能够连接数据,技术和业务的人。

拥抱不确定性:数据科学并不是一颗银弹,也不是一颗水晶球。像报告和关键绩效指标一样,它是一个决策的辅助者。数据科学是一个工具但是并不仅限于此,而且数据科学也不是一个绝对的科学,它是一个概率的领域,管理者和决策者需要接受这个事实。他们需要在决策过程中体现出量化的不确定性。如果组织文化采用快速学习失败的方法,这种不确定性只能根深蒂固。只有组织选择一种实验文化,它才会兴旺发达。

BAB(Business-Analytics-Business)原则:这是最重要的原则。许多数据科学文献的重点是模型和算法,而这些大多都没有实际的商业实践背景。业务-分析-业务(BAB)是强调模型和算法在业务部分应用的原则。把它们放在商业环境中是至关重要的,定义业务问题,使用分析来解决该业务问题,并将输出集成到业务流程中。

过程(Process)

Markdown

从上述原则#2中可以看到,数据科学的过程对于实现数据科学至关重要,一个典型的数据科学项目可分为如下几个阶段:

1. 定义业务问题

阿尔伯特·爱因斯坦曾经引用过“凡事尽可能简洁,但不能太过简单”,而这句话也正是定义业务问题的核心。问题的表述需要事情的发展历程和所在场景,需要建立明确的成功标准。几乎在所有的企业中,业务团队总是繁忙无比,但是这并不意味着他们没有需要解决的挑战。头脑风暴会议、研讨会和访谈可以帮助揭开任何问题的面纱并提出可能的解决方案或者假设。而对于如何定义业务问题?可参考下例:

一家电信公司由于其客户群减少而导致其收入同比下降。面对这种情况,业务问题可能被定义为:

该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。

2. 分解为机器学习任务

业务问题一旦定义好之后,就应该分解为机器学习任务。例如上述的示例,如果该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。该如何分解该业务问题为机器学习任务呢?下面是一种分解的示例:

  • 将顾客的流失减少x%。
  • 为有针对性的营销确定新的客户群。

3. 数据准备

一旦确定了业务问题并将其分解为机器学习问题,就需要开始深入研究数据了。对于数据的理解应该明确的针对当前问题,因为当前问题能够帮助制定合适的数据分析策略,并且要注意的是数据的来源、数据的质量以及数据的偏差等。

4. 探索性数据分析

“当宇航员进入宇宙时,他们是不知道宇宙中有什么的。”同样的,数据科学家在开始对数据进行分析时,对于数据中隐含的特征等也都是未知数,他们需要穿过数据的表象去探求和开发新的数据涵义。探索性数据分析(Exploratory data analysis,EDA)是一项令人兴奋的任务,可以更好地理解数据,调查数据中的细微差别,发现隐藏模式,开发新功能并制定建模策略。

5. 模型化

探索性数据分析之后,将进入建模阶段。这个阶段中,会根据特定的机器学习问题,选择不同的算法,而机器学习算法有很多,耳熟能详的有回归、决策树、随机森林等等。

6. 部署与评估

最后,部署开发的模型,并且建立持续的检测机制,观察他们在现实世界中的变现并据此进行校准和优化。

机器学习问题类型

Markdown

一般情况下,机器学习有两种类型:

监督学习

监督学习是一种机器学习任务,其中有一个明确的目标。从概念上讲,建模者将监督机器学习模型以实现特定目标。监督学习可以进一步分为两类:

回归

回归是机器学习任务中的主力,被用来估计或预测一个数值变量。例如下面两个问题:

  • 下季度的潜在收入估计是多少?
  • 明年我可以关闭多少项交易?

分类

顾名思义,分类模型是将某些东西进行分类,用在离散型变量。分类模型经常用于所有类型的应用程序。分类模型的几个例子是:

  • 垃圾邮件过滤是分类模型的流行实现。在这里,每个传入的电子邮件根据特定的特征被分类为垃圾邮件或非垃圾邮件。
  • 流失预测是分类模型的另一个重要应用。在电信公司广泛使用的流失模型来分类给定的客户是否会流失(即停止使用服务)。

无监督学习

无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何明确的目标,他们所产生的结果可能有时难以解释。有很多类型的无监督学习任务。几个关键的是:

  • 聚类(Clustering):聚类是将类似的东西组合在一起的过程。客户细分使用聚类方法。
  • 关联(Association):关联是一种查找频繁匹配的产品的方法。零售市场分析使用关联法将产品捆绑在一起。
  • 链接预测(Link Prediction):链接预测用于查找数据项之间的连接。 Facebook,亚马逊和Netflix采用的推荐引擎大量使用链接预测算法来分别向我们推荐朋友,物品和电影。
  • 数据简化(Data Reduction):数据简化方法用于简化从很多特征到几个特征的数据集。它需要一个具有许多属性的大型数据集,并找到用较少属性来表达它们的方法。

机器学习任务到模型到算法

一旦将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。通常,模型是在多种算法上进行训练的,选择提供最佳结果的算法或一组算法进行部署。

Azure机器学习有超过30种预建算法可用于训练机器学习模型。

Markdown

结语

数据科学是一个广泛且令人兴奋的领域,而且是一门艺术和科学。这篇文章仅仅是冰山一角。如果“不知道”是什么,那么“如何”将是徒劳的。在随后的文章中,我们将探讨机器学习的“方式方法”。敬请期待!

Markdown

TalkingData发布2018年最新战略布局,探索发展新路径

Markdown

今天,TalkingData在北京举办了以“始于初心,重塑未来”为主题的产品及战略发布会,正式宣布了2018年最新战略布局,以“开放、连接、安全、智能”为核心,着力探索中国大数据行业的发展新路径。

Markdown

TalkingData创始人兼CEO 崔晓波

在国家战略政策利好下,大数据的理念普及已完成,更大的困难在于如何真正从数据中形成智能,提升商业决策与人类生活,这也是所有大数据企业共同面临的挑战。TalkingData创始人兼CEO崔晓波在发布会上强调,数据的核心不是拥有而是连接,TalkingData将突破传统的数据源公司、数据软件公司、咨询公司模式,探索创新发展路径,以“数据智能服务商”为定位,基于开放连接的理念构建整合数据产业链各方资源的平台生态,这样才能集产业之力,真正实现“数据改变企业决策、数据改善人类生活”——TalkingData自成立以来一直坚守的初心和愿景。

为此,TalkingData从战略层面对平台能力进行了全面升级,以SmartDP数据智能平台和SDMK数据智能市场作为双核心驱动,在安全合规的前提下,一方面接入各渠道数据源,打破各企业间的数据孤岛;另一方面基于强大的平台能力,为各方开放提供面向业务场景的数据智能应用与服务。

Markdown

SDMK数据智能市场

安全合规是TalkingData非常重视的基础。目前,TalkingData按照国内法规、甚至GDPR的要求,将数据安全作为全局考量,纳入所有业务和产品的设计与落地中,并在数据保护技术方面持续进行大量探索和实践。

崔晓波表示,“开放、连接、安全、智能”将成为TalkingData继续领跑行业的差异化优势与竞争力。

零售、营销、金融和智慧城市是TalkingData重点聚焦的数据智能应用领域。此次发布会上,TalkingData同时公开了针对这四大领域的重量级产品。

TalkingData特别邀请到腾讯云大数据应用产品总经理聂晶,正式介绍了TalkingData联手腾讯云发布的面向线下品牌商的数据智能产品——智选。智选有机整合了海量数据与机器学习技术,旨在解决实体门店的选址、商圈经营等场景问题,为智慧零售及多元化线下产业提供帮助。

Markdown

腾讯云大数据应用产品总经理 聂晶

此外,杭州决对信息科技有限公司CEO冯江也受邀在此次发布会介绍了旗下大数据风控、资产交易咨询、零售信贷业务咨询等产品,分享如何与TalkingData联手运用金融科技解决行业数字化转型所面临的痛点,助力行业链条发展。

Markdown

杭州决对信息科技有限公司CEO 冯江

基于与国家统计局在人口统计方面长期合作所积累的经验,TalkingData此次正式推出了以准确、动态、及时、多维度为优势的移动大数据人口统计应用——“统计魔方”。同时,以TalkingData Brand Growth品牌广告价值分析平台为代表的TalkingData营销领域产品和数据服务,也在此次发布会上宣布了重要升级。

Markdown

统计魔方

这是TalkingData成立以来的首次战略发布会,也凸显了此次全新战略布局的里程碑意义。TalkingData希望更多与合作伙伴携起手来,共建开放连接的数据产业生态,让大数据真正对人类有所裨益

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

Markdown

TalkingData-2018年4月移动游戏Benchmark

2018年4月移动游戏Benchmark解读:

付费率:2018年4月,移动游戏用户的付费率在Android和iOS平台处于平稳状态,其中,动作类移动游戏的付费率在Android平台环比增长1.3%,在iOS平台则环比持平;

用户活跃度:2018年4月,大多数类型移动游戏的用户活跃度在Android和iOS平台保持平稳,其中,iOS平台策略类移动游戏的周活跃率环比增长8.0%,月活跃率则环比下降2.9%;

用户留存率:2018年4月,Android和iOS平台移动游戏用户的一日玩家比例整体与上月持平,次日留存率和7日留存率出现微幅波动。其中,iOS平台模拟类移动游戏的一日玩家比例相比上月有所增长,其次日留存率和7日留存率则分别环比下降1.0%和1.8%;

使用时长&次数:2018年4月,大多数类型移动游戏用户的日均游戏次数和平均每次游戏时长环比微降。其中,棋牌类移动游戏在Android平台的日均游戏次数与上月持平,平均每次游戏时长环比下降2.5%。

MarkdownMarkdownMarkdownMarkdownMarkdownMarkdownMarkdownMarkdownMarkdown

移动观象台

更多移动互联网的行业数据和报告请登录TalkingData移动观象台 http://mi.talkingdata.com/index.html

Markdown

Markdown

影儿时尚集团与TalkingData达成战略合作, 打造数字化会员运营闭环

近日,TalkingData正式宣布与影儿时尚集团达成战略合作,助力影儿时尚集团构建数字化会员运营闭环,迈出新零售转型的关键一步。签约仪式在深圳举办,TalkingData合伙人兼执行副总裁林逸飞与影儿时尚集团总裁俞淇纲分别作为代表出席并完成签约。

Markdown

Markdown

(签约仪式现场)

影儿时尚集团是一家以时尚行业为主导、跨行业发展的大型服装企业,面对移动互联网时代的消费市场巨变,旨在顺应新零售大趋势,加速企业的数字化转型。此次合作重点围绕帮助影儿时尚集团搭建OMO(Online-Merge-Offline)“可管理流量”和数字化运营平台体系展开,TalkingData将为影儿集团提供专业的数字化转型整体解决方案,从数据、到平台、再到咨询层面,驱动以数据的智能构建技术的智能、组织的智能和决策的智能,经过三大阶段,助力影儿时尚集团实现自身数字化运营能力稳步成长,获得效率和收益的双重提升。

Markdown

(活动现场)

通过后期持续合作,TalkingData希望从数字化产品设计、供应链优化、动态选址、数字化品宣四大方面出发,助力影儿时尚集团提升全链条效益,赋能影儿时尚集团中长期的发展。

签约仪式上,影儿时尚集团总裁俞淇纲提到,2018年是影儿时尚集团数字化转型闭环打造的关键年,数字化会员则是影儿品牌从实体店+互联网转型新零售的关键节点。服务顾客一直是影儿时尚集团“新零售”的目标,而数字化会员就是实现该目标的重中之重。通过TalkingData的数字化运营平台、建模能力、数据化会员运营、新媒体流量运营等能力的逐步赋能,将极大地帮助影儿时尚集团打造基于全渠道会员数据资产的会员运营能力。

Markdown

(影儿时尚集团总裁 俞淇纲)

TalkingData合伙人兼执行副总裁林逸飞表示,TalkingData基于自身大数据的生态能力与助力传统企业转型的丰富经验,提出了 D2D数字化转型方法论,即从“数字化”到“数字化”,构建以业务数字化为起点、以效益数字化为节点的数字化运营闭环,迭代上升,全面提升企业数字化能力。目前,TalkingData已经与服饰、餐饮、3C、连锁集团等零售行业的领导企业基于D2D方法论展开合作,稳步推进数字化转型。林逸飞强调,数字化赋能新零售的时代已经来临,TalkingData希望与更多零售企业合作,帮助零售企业构建可持续发展的能力,为零售行业的产业升级提供驱动力。

Markdown

(TalkingData合伙人兼执行副总裁 林逸飞)

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

关于影儿时尚集团

影儿时尚集团自1996年成立以来,先后创建了YINER音儿、INSUN恩裳、PSALTER诗篇、Song of Song歌中歌、OBBLIGATO奥丽嘉朵和XII BASKET 十二篮六大品牌,成为一家集投资、研发、创意、营销、服务于一体、以时尚行业为主导、跨行业发展的大型服装企业,致力于将东、西方高雅文艺的精粹自然交融于服饰文化之中,以敏锐的时尚目光,将传统与现代艺术完美融合,抒写了中国时尚产业的新传奇。

Markdown

关于地理空间智能(Geospatial AI) 或 Geo.AI 你知多少?

Markdown

人工智能(Artificial Intelligence,AI)已经成为新技术革命下一阶段的热词,也成为未来产业的驱动力量。使用智能算法,数据分类和智能预测、分析,AI在很多领域将有一系列的工具来帮助解决问题。

将AI用于GIS这一具体的领域的分析、方法和解决方案,就叫地理空间智能(Geospatial AI), 或者简称为 Geo.AI.

地理空间智能(Geospatial AI)可以说是基于地理信息技术基础软件上面的机器学习。

地理空间智能(Geospatial AI)如何工作?

在简单的智能手机应用的帮助下,人们可以对周围环境条件进行实时的的反馈,如交通状况,高峰期、经历、评分等等。这些数据然后被收集、排序、分析,增强准确性和精度,因为成千上万的用户对数据库做出了贡献。

使用地理位置的这些方法不仅仅用于填补信息的空白,也可以用于对特定地理区域的高效解决方案决策提供帮助。比如,可以预测城市中哪个区域将会面临极度交通拥堵,采取何种疏导措施,车辆如何重新选择路线等等。

这也将使系统知道问题严重到何种程度,以及对问题进行定位。

地理空间智能(Geospatial AI)的不同应用

交通拥堵只是个例子,这是我们每天都要面对的一个问题。Geo.AI 可以用于很多的领域,包括很多使用位置和GIS的应用场合。出行共享公司、物流、农业、调查以及基础设施都是很好的应用的例子。

出行共享公司如Uber, Lyft等,可以从客户得到通用的反馈,处理数据从而发现车辆和司机的密度分布。

在物流和供应链,Geo.AI 可以连接运力和货物,填补差异,得到更精确的位置信息来安排物流,从而节省时间和成本。

建立在深度学习的项目能够同步操作在云上的多个主机,管理大量的数据存储和内存,用于解决这些问题。但是,几年前这些自动化的深度学习还被认为是不可能的,要么受限于成本,要么由于技术实现上的限制。同样地,Geo.AI能力随着被产业界更广泛地采用而增强,通过将地理和位置信息集成进来,AI将能够服务于更多的目的。

总之,在商业应用方面, 地理空间智能(Geospatial AI)将持续地增强规划、资源分配和决策支持能力,预测需求和供应,确认其最低、最高的边界,倍增供应链的效率,优化服务的提供。地理空间智能(Geospatial AI)的未来简直是无穷无尽。

Markdown

活动回顾|《数驱•营销闭环 助力品牌增长》全国巡演上海站

Markdown

沙龙中,认真聆听的同学们

6月21日,TalkingData在上海成功举办了《数驱·营销闭环 助力品牌增长》全国巡演第四站营销主题的线下沙龙。在本次沙龙中,我们诚意邀请到TalkingData数据分析高级总监 王鹏加和信息科技副总裁 Jimmy Liang上海联通大数据高级项目经理 山峰眸事网CTO 曹文炯,为大家分享营销案例和经验。现在,我们一起回顾下在本次沙龙中嘉宾们分享了哪些营销干货。

01《数据助力营销 闭环驱动增长》

Markdown

分享人:王鹏 TalkingData数据分析高级总监

TalkingData数据分析高级总监 王鹏把本次分享内容分为4个模块:1.势:数据洞察行业趋势;2.道:厘清营销模式流程;3.术:数据构建营销策略;4.器:产品助力营销闭环。

我们在本篇中带大家主要回顾第1-2部分。

1、势:数据洞察行业趋势

趋势一:使用习惯逐渐固化,竞争从流量转型运营;趋势二:数字营销推广作弊态势持续激增;趋势三:信息流广告独占鳌头,地位难以撼动;趋势四:HTML5 WebApp推广进入爆发阶段;趋势五:线上线下全面融合,或成为下一个营销增长点;趋势六:数字营销走向数据营销;

2、道:厘清营销模式流程

王鹏表示行业关注和需要解决的问题为以下三个方面:

①流量质量是广告主关注焦点

流量反欺诈、流量层过滤、私有交易流量使投放更加精准,而且使流量得到保证,解决数字营销中“流量”这个关键性问题;

②数据为数字营销提供基础

数字营销离不开「数据」,利用数据对受众静态属性、动态属性、各种行为习惯的分析,使精准营销成为可能;

③闭环营销让效果持续提升

通过对用户广告行为的持续学习,实现效果的不断优化,利用机器的试错、总结、学习,逐步完成迭代式优化,基于效果投相似效果。

02《构建开放的大数据营销生态圈》

 

Markdown

分享人:Jimmy Liang 加和信息科技副总裁

Jimmy认为目前在整个数据行业里,数据并不少,而是非常多。即使这样,很多广告主还是面临“看见很多数据,但它们是割裂的,数据数量很大,但没办法流动起来”这样的一个问题。在本次分享中jimmy表示此前通过清晰的数据,可以更好的掌握营销。但在互联网时代,很多原有的评估指标变得不太确定。根据与客户交流、沟通和多年从业经验,Jimmy总结出品牌需要更开放、更灵活和更安全的智能营销解决方案。

在沙龙现场,Jimmy还为现场同学分享了,通过人群标签筛选、目标人群设定、累积选择,如何在欧锦赛期间推广一款男性眼霜的案例:

①数据策略:定向目标人群-熬夜、球迷、差旅、爱美;深夜开启/使用特定App;

②标签定制:采用TalkingData定制化标签服务,找到熬夜黑眼圈一族、时下看球一族、差旅疲惫一族;和爱美保养一族,基于设备使用时间(晚间)、Lbs地理位置、等APP个性化行为,进行标签定制;

③技术关键点:多维度的DMP数据。

03《中国联通大数据助力品牌增长》

Markdown

分享人:山峰 上海联通大数据高级项目经理

在本次沙龙分享中,山峰表示通讯运营商与互联网公司对比,互联网数据受限于本身的数据基因,运营商的数据也许更有代表性和竞争力。

1、互联网数据:
  • 数据局部性,互联网公司的数据是相互割裂的,淘宝只有阿里系的数据,没有百度搜索的数据;
  • 数据封闭性,很少有互联网公司愿意开放自己的数据,开放更多的是商业模式层面和应用层面;
  • 数据割裂性,互联网的数据整合困难,同时注册的个人账号也是短期的,不稳定的;
  • 数据全面性,互联网公司的数据受限于自身的业务,其数据的范围和深度都是有限的。
2、运营商数据:
  • 运营商是数据管道,任何个人、企业的上网和通话的行为都流淌在运营商的管道里,移动运营商拥有个人、企业的上网和通话行为、位置记录,上网记录等数据,数据规模优势明显;
  • 运营商以号码为唯一的ID来整合各类数据,因业务属性的特殊性,刻画客户数据完整是运行商得天独厚的优势一般企业难以企及,而且还有终端ID作为移动通信网天生的业务属性而存在;
  • 运营商数据解决移动互联网时代最为关注的三个问题,我是谁,我在哪里,我在干什么,这是很多企业的数据难以比拟的。运营商承担着相当大的社会责任,数据不分享,不外流,数据安全得到保障。
04《大数据人工智能平台驱动商业价值》

Markdown

分享人:曹文炯 眸事网CTO

曹文炯在本次分享中,就企业如何最大化发挥DMP价值阐述了以下观点,企业自建DMP是基于消费升级带来的用户精细化运营的必然趋势;企业自有DMP的运维核心需可追溯、全流程、可触达;全流程整合业务-产品-用户矩阵,才能最大化发挥企业DMP的价值。在沙龙现场,曹文炯还为现场同学分享了多个教育案例。

《数驱·营销闭环 助力品牌增长》全国巡演第五站将在7月份登陆北京,请大家关注TalkingData微信公众号,关于北京站活动的最新动态!

Markdown