锐眼洞察 | 预测性客户分析Part 2——推荐触达客户的最佳渠道(翻译)

作者:Ryan Aminollahi

原文:Predictive Customer Analytics — Part 2

译者:TalkingData研发副总裁 阎志涛 

本译文禁止商用,转载请注明来源!

译者注:本文共分四部分,本篇文章为第二部分。

你会变成我的客户吗?

企业如何获取客户?他们需要遵循哪些步骤?

首先,企业需要识别他们的市场以及潜在客户。企业需要识别他们并且将他们作为潜在客户。然后,企业需要通过合适的广告或优惠来触达潜在客户,这需要有效和高效的沟通渠道。企业应该吸引潜在客户去访问在线站点并且查看他们产品和服务。

当潜在客户对产品发生兴趣时,企业应该让客户参与进来,回答他们的问题,并且给出报价来协助他们购买产品。

高倾向潜客

我们有一个产品,例如一个高端的笔记本电脑。谁是更有可能购买我们产品的客户?是那些有家庭和体面收入的中年人?还是那些收入比较低的大学生?这个推论是基于他们的人口统计学特性得来的。所有营销部门面临的第一个巨大挑战就是识别出更有可能购买产品的潜在客户。

这个用例的目标是给我们营销部门识别出的潜在客户生成一个购买倾向评分。倾向评分可以是二进制表示的0或者1,或者可以更好一些,它可以是个从0到1中的连续数值。我们需要使用什么样的数据呢?在这个阶段,唯一可用的数据集是潜在客户的人口统计学特性,比如年龄、薪水、家庭等属性。

关于事件,这些潜在客户可能已经参与或还没参与到我们企业的任何活动当中,因此事件数据变为了可选的数据。使用它的一种方式是用二进制的标识,比如潜客是否浏览过我们的网站:

  • 他/她是否回复过我们的电子邮件?
  • 他/她是否对我们的企业或者产品发过推文?

当然,所有这些历史数据都会打上过去活动最终效果的标签。我们该使用什么样的算法来尝试?我们可以使用回归来生成一个倾向评分或者使用朴素贝叶斯分类来给出一个转化为购买的可能性。

理想情况下,我们希望得分在0和1之间。用这个模型来对我们的潜在客户进行评分。然后营销部门可以整理这个清单,根据分数将其清除或根据分数生成一个top X的列表。

那么这样做的价值是什么呢?我们可以定期执行此用例,或者当我们的市场部准备了一个潜在客户列表。我们使用以前的数据来建立倾向模型,然后基于该模型,我们为每个潜在客户生成一个分数。然后,我们的营销部门将使用这些信息想潜在客户提供优惠和促销。

推荐触达的最佳渠道

一旦我们有一个潜在客户名单,我们需要决定如何与他们进行最佳的沟通。有多种渠道可供使用,例如电话、电子邮件、手机、互联网或者社交媒体上的定向广告。

但不同的人对不同的媒体有不同的反应。有人喜欢关注他收到的营销电子邮件,总会点击并阅读;有的人则相反,他会将这些电子邮件过滤到垃圾文件夹中;也有人倾向于在网页浏览中点击基于其近期搜索推送的弹窗广告。

这个用例的目标是推荐联系潜在客户的最佳渠道。很多媒介以这种方式去锁定客户,因为这样能够获得最高的关注度并且获得最高的投入产出比。那我们该使用什么数据呢?与潜客相关的数据最为常见,我们还应该使用以往成功的营销活动的数据,在这些营销活动中,我们通过特定渠道、触达了特定潜在客户并实现了潜客转化。

这些数据告诉我们哪些人通过哪些渠道转化。利用这些数据,我们可以构建一个模型去预测未来潜客的触达渠道,随后用这个模型对潜客的未来行为进行预测。

我们将要使用什么算法呢?这是一个经典的分类问题,因此我们会采用以前的相关算法去实验其精确度。我们利用过去的数据构建了一个模型,为每个潜在的客户推荐一个进行触达的媒介。

那么这么做的价值是什么呢?我们将会使用过去的数据去构建一个分类模型,用这个模型去对每个潜在客户预测最佳的触达渠道。这将会帮助我们的营销团队去设置针对性的活动,帮助他们通过特定的渠道触达特定的潜在客户。

按照访客购买倾向提供聊天

我们有网上的销售代表随时准备与访问者建立联系,并且吸引客户购买我们的产品。但是通常我们有太多的网站访问者,而且他们大部分是只看不买的人。我们希望我们的销售代表只与那些真正想要购买的访客进行聊天,我们不想浪费我们销售代表的时间。

想象一下,客户比较产品,例如笔记本电脑。这意味着他/她做了决策吗?他/她开始阅读商品评论,他对购买是认真的吗?他/她正在查看我们的售后保证条款,这意味着他/她做了决策吗?我们如何判断呢?

这个用例的目标是根据客户在我们网站上的实时行为,反复预测一个客户的购买倾向。当客户在我们网站进行活动时,我们想要持续计算和修正倾向得分。这个用例的数据源是潜客的属性数据以及潜在客户在访问我们网站时进行的活动数据,包括他检出的产品,他的相关行为。例如,是否查看过评论?比较过商品?对售后保障是否有兴趣?这些是通过在浏览器上的网页点击事件来衡量的。

我们需要使用每个潜在客户过去每次的访问数据,以及访问的最终结果,比如他是否进行了购买。

朴素贝叶斯将会是最适合的算法,因为它提供了一个概率分数。我们会使用过去的数据,包括客户的人口统计学数据、网站行为数据,利用朴素贝叶斯算法构建一个倾向性模型。然后我们使用这个倾向性模型去预测我们现在网站的访问者的购买倾向性。那么,这么做的价值是什么呢?我们基于过去的数据构建一个离线模型去根据一个客户在网站的行为建立一个倾向分。

当一个新的潜客访问我们的网站时,网站点击事件会被持续收集。每次当一个新的事件被收集时,例如查看评论或者比较商品,模型会根据收集到的数据进行运行而重新计算一个倾向分。当倾向分达到特定的阈值时,在线商店可以做出决定去触发聊天,这是我们可以通过原型来验证的东西。

我将会给大家展示如何用Python实现这个用例。

我们将会实现实时预测我们网站访问用户的倾向评分的用例。当访问者到我们的网站时,他们开始浏览产品并且检出不同的链接。我们想要做的是基于他们的活动,实时预测他们的倾向评分,决定我们是否需要提供他们在线聊天。

如下是客户浏览的样例数据:

这个数据包含不同用户过去的所有的会话的信息,它包含一个session id,以及一系列的布尔型变量,这些变量将会变为我们的特征变量。这些布尔型变量是根据访客的行为而生成的1或者0。

images的含义是访问者是否浏览过产品的图片,reviews代表访问者是否真正浏览过产品的评论。类似的,我们有FAQ、specs、shipping、bought_together、comparison of products等等属性。最终,有一个目标变量,代表着访客最终是否购买了产品或者没有购买产品。这将会是我们用户构建这个模型的数据集。

在真实世界,如果我们想要获得真正高精度的预测,我们需要一个非常巨大的数据集。我们从输入一系列python库,以及输入browsing.csv到一个叫做prospect_data的dataframe开始。

`from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import os
import matplotlib.pylab as plt
from sklearn.model_selection  import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
import sklearn.metrics
prospect_data = pd.read_csv("browsing.csv")
prospect_data.dtypes`

然后我们会看一下数据类型,确认数据是否被正确装载。

SESSION_ID int64
IMAGES int64
REVIEWS int64
FAQ int64
SPECS int64
SHIPPING int64
BOUGHT_TOGETHER int64
COMPARE_SIMILAR int64
VIEW_SIMILAR int64
WARRANTY int64
SPONSORED_LINKS int64
BUY int64
dtype: object

这份数据包含用户在他浏览网站过程中点击的不同的链接的信息。这是用于构建模型的过去的数据。

  • Session ID:浏览web会话的唯一ID。
  • Buy:潜在用户在结束时是否购买了商品。
  • 其他列: 0或者1表示潜在用户是否访问了特定的页面或者进行了特定的活动。

#对数据进行汇总统计分析

prospect_data.describe()

为此,我们将在这个课程中使用纯粹的测试条方法,我们将按照70/30的比例进行分割。我们会检查比例大小是否与我们预期的一致,350比150应该是正确的。紧接着,我们将进入模型构建过程。我们使用sklearn库中含有的naive_bayes算法——高斯naive_bayes。我们首先创建naive_bayes分类器,然后使用拟合方法构建模型,将其应用于训练预测分析以及训练目标中。

进行关联分析

prospect_data.corr()[‘BUY’]
SESSION_ID 0.026677
IMAGES 0.046819
REVIEWS 0.404628
FAQ -0.095136
SPECS 0.009950
SHIPPING -0.022239
BOUGHT_TOGETHER -0.103562
COMPARE_SIMILAR 0.190522
VIEW_SIMILAR -0.096137
WARRANTY 0.179156
SPONSORED_LINKS 0.110328
BUY 1.000000
Name: BUY, dtype: float64

观察上边的关联信息,我们可以看到一些特征比如REVIEWS、BRO_TOGETHER、COMPARE_SIMILIAR、WARRANTY 和SPONSORED_LINKS与目标变量有一定的关联性。我们将会减少特征去使用这些变量。

#Drop columns with low correlation
predictors = prospect_data[[‘REVIEWS’,’BOUGHT_TOGETHER’,’COMPARE_SIMILAR’,’WARRANTY’,’SPONSORED_LINKS’]]
targets = prospect_data.BUY

训练和测试分片

我们现在将把数据按照70:30切分为训练集和测试机,去构建和验证模型。

pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, targets, test_size=.3)
print( “Predictor — Training : “, pred_train.shape, “Predictor — Testing : “, pred_test.shape )
Predictor - Training :  (3505) Predictor - Testing :  (1505)

构建模型和检查准确度

from sklearn.naive_bayes import GaussianNB
classifier=GaussianNB()
classifier=classifier.fit(pred_train,tar_train)
predictions=classifier.predict(pred_test)
#Analyze accuracy of predictions
sklearn.metrics.confusion_matrix(tar_test,predictions)
array([[7618],
      [2432]])
sklearn.metrics.accuracy_score(tar_test, predictions)
0.71999999999999997

我们可以做一个概率预测来显示一个潜在客户购买产品的概率,而不是做一个Yes/No的预测。

pred_prob=classifier.predict_proba(pred_test)
pred_prob[0,1]
0.35088586866049354

如上的概率可以理解为有35%的可能性这个潜在客户会购买产品。

实时预测

现在模型已经构建好了,让我们将它用在实时预测上。当我们的客户开始一个个访问我们的页面时,我们收集访问的列表然后用它来计算概率。当每一个点击进来时,我们都会做预测。

潜在客户刚刚来到我们的网站,因此没有有用的点击。让我们计算他的概率,传递的数组应该包含REVIEWS、BOUGHT_TOGETHER、COMPARE_SIMILAR、WARRANTY和SPONSORED_LINKS的值,所以这个数字在开始所有的值都是0。

browsing_data = np.array([0,0,0,0,0]).reshape(1-1)
print(“New visitor: propensity :”,classifier.predict_proba(browsing_data)[:,1]
New visitor: propensity : [ 0.03961746]

因此最初的概率是4%。现在假设客户在相似的商品做了比较,数组的值中包含了一个1,因此新的概率将会是:

browsing_data = np.array([0,0,1,0,0]).reshape(1, -1)
print(“After checking similar products: propensity :”,classifier.predict_proba(browsing_data)[:,1] )
After checking similar products: propensity : [ 0.09898671]

概率值上升到了接近10%。紧接着,他查看了评论。

browsing_data = np.array([1,0,1,0,0]).reshape(1, -1)
print(“After checking reviews: propensity :”,classifier.predict_proba(browsing_data)[:,1] )
After checking reviews: propensity : [ 0.57538836]

这个时候概率值超过了50%。我们可以设置一个触发我们和客户聊天的阈值。我们持续地将这个概率与之进行比较,去决定我们是否需要弹出对话框。

这个例子告诉我们如何实时地利用预测分析,去决定一个潜客是否具有高的转化倾向,从而给销售代表弹出一个对话框。

所以,请记住,当这些人继续进来时,倾向是否总是上升并不重要,它甚至可能会下降,这一切都取决于数据是如何。 这样,我们可以随时决定何时提供聊天窗口。

锐眼洞察 | 预测性客户分析Part 1——客户生命周期(翻译)

作者:Ryan Aminollahi

原文:Predictive Customer Analytics — Part I

译者:TalkingData研发副总裁 阎志涛 

本译文禁止商用,转载请注明来源!

译者注:本文分四大部分,将分为四篇发出。

业务是围绕着客户进行构建的,每个企业都需要客户才能生存,客户是企业的收入的来源。勿容置疑,企业的成功与获取客户、培育客户、让客户满意、解决客户的问题、进而从客户那里获取更多收入的能力直接相关。但是企业想要做到这一点,需要能够识别他们的潜在客户。

他们需要弄清楚谁、什么、为什么以及如何(4W)

  • 谁是需要他们产品的潜在客户?
  • 他们需要什么产品?
  • 他们为什么需要这个特定的产品?
  • 客户如何做购买的决定?
  • 企业如何去应对这个?

通常所有的企业都有面向客户的人员,比如销售、市场、以及客户支持人员,他们经常与客户进行交流沟通。

这些人变成了企业面向客户的对外形象。但是企业没办法随时单独联系每一个潜在客户和现有客户,去了解其所需。

可以想象,密切掌握客户所想是非常巨大的挑战。当目标市场非常大时,例如有超过100万的客户,是非常难以保持一对一的关注。而且,随着越来越多的生意转移到线上,企业与客户之间没有了直接联系的方式。

客户散落在全球各地。我们也应该考虑到,比以前更快触达客户所带来的竞争。传统的地域和语言造成的障碍消失了。中国企业也可以非常容易的向美国客户销售产品,例如阿里巴巴。

竞争变得越来越激烈和聪明,。今天的客户对于任何产品和服务都有了更多的选择,而且更换供应商的难度也越来越小。这使得企业面临的处境是需要对其客户将来可能做什么进行理解和计划。

为了这个目标,他们需要预测客户的行为,这里就包含着预测性客户分析。为了领先并且提前行动,企业需要知道他们的客户将来可能做什么。

  • 他们将来会买你的产品吗?
  • 他们会更换为其他供应商吗?
  • 他们对产品满意吗?
  • 他们会不满意吗?
  • 他们会购买更多吗?

企业需要回答这些问题,从而去识别合适的客户、触达他们的正确渠道以及提供正确的方式来他们帮助。

他们需要预测分析。预测性客户分析使用客户数据去构建模型,这些模型帮助预测未来的行为,帮助企业转化和识别客户可能会购买的附加产品,从而达到企业期望达到的目标。

当客户遇到问题时,预测性客户分析将会帮助企业识别解决问题的合适资源,帮助识别可能会离开的客户从而给通过一些措施挽留他们。

利用预测性客户分析,企业可以借助比传统方式更低的成本和更高的效率来实现这一目标。

现在正是进行预测性客户分析的好机会。企业有丰富的数据源可以广泛使用,例如网络博客、社交媒体、聊天、交易记录以及语音记录。另外,今天的大数据技术能够以经济高效的方式进行大规模数据处理、集成以及存储。

我们有不同的方式去理解客户的想法和感受,并且能够通过数据挖掘来建立有效的模型。然后我们可以使用这些模型将业务推向正确的客户并使得他们留在您的业务当中。

客户与企业之间的关系经历一个生命周期。企业为客户提供所需的产品和服务,客户查看企业能够提供给他的需要和需求,所有这一切都开始于需求。想象一下,一个客户需要一个笔记本电脑,他会根据技术规格、成交量以及客户服务评分去进行选择。

然后客户选择了一家店铺去购买笔记本电脑,这是购买过程。当客户完成一个商品购买后,他或者她可能会需要购买附加的东西,例如线缆、充电器、存储等等。客户会持续使用这个产品一段时间,他可能会面临维修和升级配件的问题。当该笔记本电脑的生命周期结束,这个客户可能会从同一家企业购买,也可能会根据他以前的经验和当前的选择从另外一家企业完成购买。

从商业的角度来看,这个生命周期的第一步是获取客户。这个周期涉及广告、针对性营销等等,其目的是为了将客户拉入到自己的店铺。一旦客户购买了产品,企业可能会想要继续推销其他产品,例如线缆、附加服务等等。对现有客户的销售成本要比对全新客户的销售成本低很多。企业需要通过合适的服务和支持来确保客户对产品满意。

当产品的生命周期接近结束时,企业希望通过提供优先交易来重新获取这个客户。请记住,留存客户比获取新客的成本低的多。所以我们看到,这个生命周期对于企业和客户来说都是相似的。客户聚焦于产品的价值而企业更关注收入和客户留存。

将分析应用在客户生命周期中

  • 获取:

客户分析可以通过属性和行为分析来识别出那些更有可能购买产品和服务的客户。客户分析可以识别触达这些潜在客户的正确渠道,如电子邮件、电话或者社交媒体。客户分析还可以用于确定能够打动潜在客户的价格和折扣。

  • 追加销售:

当一个客户购买了一个产品后,他们非常可能会需要一些赠品。例如,一个笔记本电脑购买者可能需要电脑包、线缆以及保修。预测性客户分析可以帮助识别购买这个产品的买家可能会购买的产品和品牌从而帮助企业进行推荐。如果你使用过Amazon或者eBay,你已经体验过这些。在每个产品页的下方,你都会看到一个叫做“购买了这个产品的客户还购买了”的板块。

  • 服务:

分析可以帮助预测产品中的失败模式并指导企业采取主动行动。 它还将帮助选择正确的渠道为各类客户提供服务。 例如,一些客户对电话联系感觉更舒适,而另一些客户喜欢电子邮件。

它可以将客户交于与适合的联络中心代理,来识别最可能不满意的客户并与他们取得联系。

  • 留存:

预测性客户分析可以帮助预防客户流失。它可以识别最有可能离开的客户,并预测他们离开的时间。 这有助于企业在适当的时间采取行动。 预测性客户分析有助于根据客户类型识别获取关注的恰当程序。

因此,预测性客户分析可以帮助企业在客户生命周期的所有阶段以互相作用的方式来吸引客户。

客户数据

预测性客户分析需要承载客户意图和行为信号的数据。识别提供这些信号的正确数据并将它们用于模型构建是非常重要的。

客户与企业之间的关系由下面的四个实体组成:

  • 用户自身
  • 客户购买和使用的产品和服务
  • 与客户沟通的渠道,比如Email、网络聊天
  • 代表公司面向客户的代理,比如销售或者支持人员

对于客户分析,需要两种类型的数据:

  • 实体的属性
  • 实体参与的事件

实体可以是客户、产品、渠道或者代理。

客户的属性包含人口统计学属性、收入、年龄、性别、位置等等。

产品的属性包含类型、价格、质量等等。

渠道的属性包含类型、使用频率以及响应时间等等。

代理的属性包括处理时间、解决率等等。

这些属性包含客户可能会购买什么以及会支付多少钱。

第二类数据是交互数据,这些时间与客户在公司做什么有关。时间带有时间戳,事件包含的交互包括浏览、邮件、聊天、电话等。

它们还包含诸如购买、提交投诉、交付产品和支付等等交易相关的事件。

它们还包含社交媒体活动,客户可能发表推文或者在Facebook上发表关于产品的消息或者回应某个消息,比如点赞或者转发。

例如,客户昨天花了15分钟浏览了公司的网站,查看产品和服务。他或者她昨天发了推文,针对一个合适的产品和服务向他的朋友咨询意见。所有的这些都指向了他具备在近期购买某个产品和服务的意愿。

企业可以借助这些,通过为他或者她提供沟通回答任何问题或者提供一些线索来完成销售。

预测性客户分析的成功之处在于,其决定了企业识别识别属性和活动数据多种数据源,通过获取、挖掘、集成这些数据来构建360度客户认知的能力。

数据越完整,预测越准确。

客户分析过程

预测性客户分析是一个持续优化的模型,它需要在企业内构建一个良好布局的流程来处理和交付。

该流程从确定能够为公司带来帮助的预测性客户分析用例开始。 一旦确定了用例,架构师需要确定可服务于此目的的数据源,然后需要构建数据管道以获取、处理、集成和存储数据。

然后数据科学家需要开展工作来挖掘数据并构建模型。需要在部署之前对模型进行精确度测试。

需要对模型的性能进行监测,并且对模型进行调优。 随着时间的推移,可以添加额外的数据元素以更好的进行预测工作。所有这些工作都需要管理层的认同。一旦有管理层加入,我们将能够获得资源来执行项目。

锐眼洞察 | 2018年将成为数据工程师年(翻译)

作者:Alex Woodie

原文:Why 2018 Will be The Year of The Data Engineer

译者:TalkingData架构师 曾晓春

本译文禁止商用,转载请注明来源!

多年来,精通统计、业务和编码技能的数据科学家的短缺一直备受关注。但是,越来越多的企业面临着另一种大数据团队关键人才的短缺,他们对于取得成功至关重要,那就是——数据工程师。

基于数据的系统能够支持项目的分析和事务操作,而数据工程师是设计、构建和维护这一系统的专家。尽管数据工程师不一定掌握数据科学家拥有的技能,比如构建复杂的机器学习模型,但是他们需要完成大量支持数据科学工作所需的其他工作,例如:

  • 构建数据管道以收集数据并将其移动到存储中;
  • 为ETL或ELT过程准备数据;
  • 将数据与脚本语言拼接在一起;
  • 与DBA合作构建数据存储;
  • 确保数据可以随时使用;
  • 使用框架和微服务来提供数据。

简而言之,数据工程师的工作就是向业务需求者提供干净、可靠的数据。与数据科学家的聪明才智相比,数据工程师更像是一位具有实践经验的管道工。如果数据科学家是提出利用新数据源获利的宏伟计划的人,那么数据工程师就会知道如何构建流水线来移动数据,清洗和转换数据,并实现服务以确保数据科学家拥有需要的所有干净、可靠的数据。

没有足够的工程师

大数据中间件开发商Dremio的CEO兼共同创始人Tomer Shiran说:“当一个公司试图将其数据科学项目投入生产时,数据工程师至关重要。因此,数据工程师的需求近来一直在增长。

“为了成功运行一个数据科学项目,数据科学家与数据工程师的数量通常有一个比例。”Shiran说,“但即使是最热门的硅谷公司也无法实现一比二的比例,没有足够的工程人才,他们很昂贵。”

shutterstock_engineer-300x169.jpg

数据工程职位空缺数量超过数据科学的职位空缺约四倍

Shiran说:“分布式数据存储(如Hadoop、Amazon S3和Azure BLOB)的复杂技术特性增加了对数据工程师的需求,因为总的来说,只有工程师才能从系统中获取价值。”

数据工程师的短缺正在推高需求。在Glassdoor上搜索发现,在全美国有107,730个数据工程职位。这些职位列表中的大部分都有超过10万美元、个别超过15万美元的起始工资。相比之下,对数据科学家的职位搜索结果是21,760个——其中很多也是高薪的。事实上,在就业委员会中,有98,218名数据工程师职位,而数据科学家只有24,695名——数据工程师与数据科学家职位的比例几乎为四比一。

Umbel工程高级总监凯文·萨福德(Kevin Safford)表示,工程是Umbel利用其数据平台为体育特许经营带来价值的重要组成部分。

“如果他们试图自己建立这个平台,那将是一场噩梦。”Safford告诉Datanami。“首先,他们不是工程公司、也不是软件公司。我们花了很长时间、很多聪明的人做了大量的努力来构建这个项目。”

Umbel使用各种开源和专有技术(Spark、Cassandra、ElasticSearch等)来建立数据库,跟踪消费者的体育相关指标,包括他们如何购买门票、他们的社交媒体行为、品牌兴趣、以及人口统计和心理状况。

Safford说:“我们有数以万计的标签可以与任何特定的个人相关联,并且整个系统内包含的人群为两亿人。这是一个巨大的数据量。仅仅是要管理这些数据集就非常困难,使它可用于信息检索并迅速实现就更加的难,甚至可以说这是非常不凡的。”

并行的大数据世界

Overstock.com集团产品经理Craig Kelly 表示,在数据科学领域有两个平行的世界 ——数据管理和统计 ,但它们往往不重叠。“观察我们的数据科学小组的成员,他们都是优秀的数据科学家。”Kelly说。“但他们中没有重量级的数据工程师。”

data-pipe_shutterstock_posteriori-2018a-300x171.jpg

数据工程师负责建立和维护提供新鲜和准确数据的管道

为了构建强大的一对一营销机器,Overstock.com必须克服这一数据工程弱项。他们部分采用了基于云的数据分析解决方案。“我们在数据工程方面没有足够的资源来支持我们要做的事情,所以我们考虑了Snowflake和Databricks弥补了这个不足——不是数据工程方面的专业知识,而是数据工程所需的硬件资源,所以数据科学家可以在不用太依赖其他团队的情况下完成工作。”

实时流分析软件供应商Striim的首席技术官兼创始人史蒂夫·威尔克斯(Steve Wilkes)表示,企业对收集到的数据越来越挑剔,因此他们在做数据整合的前期工作,而不是将数据集成到数据湖中。这正在改变他们如何部署他们的人员以及对人员的工作内容安排 。在某些情况下,数据科学家被要求承担更多的数据工程角色。

“我们更多看到的是数据科学家正在参与最初的数据收集,并开始在数据准备方面有更多的发言权(在它落地之前而不是在落地之后),包括在内存中进行数据准备,以正确的形式获取数据,进行特征提取。” Wilkes说。

工程的成功

Umbel的Safford表示,即使是最好的数据科学项目,数据工程专业知识的短缺也可能导致数据丢失。

他说:“你必须同时解决这两个问题才能取得成功,因为如果花费大量的时间和精力来管理你的数据,而你却无法利用它,那么这将成为巨大的痛点和巨大的成本。与此同时,如果没有非常小心准备、管理和维护一个对所需解决的问题有重要作用的数据集,那么分析团队将无的放矢。”

shutterstock_computer-engieneer_gyn9037-300x199.jpg

工程师正在成为大数据项目的重要团队成员

Safford已经看到许多数据项目因为数据工程执行不力而陷入困境。他说:“构建数据应用程序与构建大规模Web应用程序相比,需要完全不同的专业知识。就像不应该聘请一个建筑商来建造甲板,或者去找一个机械师来照顾你的生活。你不仅仅需要为节约自己的时间而付出成本,还要雇佣专家确保你避免做一些根本错误的事情,这些事情往往在发生之前你都不会注意到,一旦到发生的时就会让你陷入深深的困扰之中。

组织通常认为他们可以在项目工作中获得数据工程的经验。他们通常是错误的,Umbel说。

“必须要辛苦获得在建立数据管道、数据管理系统、数据分析和所有中间代码方面的实践经验,才能使数据可用和可访问,并确保数据是正确的,以确保你所做的分析是正确的,”他说,“如果没有这方面的专业知识,就会自以为随着工作进行就能搞懂这些东西。而且我看到很多人这样想。他们几乎都是错的,而且他们总在犯同样的错误。”

锐眼洞察 | 2018 关于数据的一些思考

作者:TalkingData 陈雷

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

掉过的那些数据坑

虽然过去的咨询、架构、软件工程管理工作中一直在分析数据、应用数据,一直在填各种坑,但真正跳进数据这个坑是始于 2015 年加入 TalkingData,真正把数据作为自己工作与研究的主体。 2015 年大数据公司的数据应用刚刚起步,我们就已经利用自己积累的数据,率先在行业内建立起一套数据标签体系,这套数据标签体系成为数据服务工作的起点,我们利用这批数据标签建立了移动互联网行业的覆盖和活跃排行榜,为移动用户人群的移动行为画像,起到了很好的示范效应。 随着数据应用逐步深入到深水区域,我们开始深度尝试数据标签在行业中进行精确营销、精细化客户运营、金融用户的风控识别,这时发现原有的标准化数据标签的应用效果参差不齐。 有些标签在特定人群使用中有效果,但换一个人群的效果差异就可能很大。举个例子,我们的标准标签建模后在金融风险客戶甄別上的 KS 值在 0.14 到 0.19 之间,基本属于不可用的范畴。 仔细分析标准标签的原始数据和信息加工场景后,我们对原始数据进行进一步发掘,针对行业需求深入探索数据中的信息含义,定制了一系列的行业标签。 针对金融用户的风控需求,我们从用户的稳定性、金融行为、消费行为、位置趋势、性格偏好等多个金融视角重新制定了一套风控标签,这些标签建模对金融贷款风险用户甄别的 KS 值提升到 029-0.39 之间,基本满足了金融客户对行为数据的期望值。但在金融数据应用金字塔上,行为数据依然处在金字塔的底端,难以撼动金融客户的数据应用习惯。 复盘过去几年做的事,我们总结了数据工程方法论,针对数据应用的层级归纳了数据、信息、知识、洞察、智慧等五个层次。   data_information_knowledge_insight_wisdom-1

图片来自:David Somerville

过去,数据分析师在做数据应用时,起点常常是数据标签,数据标签属于信息层面。只有当信息不足的时候我们才把数据分析的开始层次回退到数据层面,直接在数据中提取更加丰富的信息内容。 这样的经验与教训过程进一步促发了更多思考:

  • 采集和使用的原始数据是否真实?

  • 数据的丰富程度能否满足应用需求?

  • 数据工程过程中如何保证信息的传递?

这些问题触发我们重新去认识数据与信息,重新去理解数据的本质。

数据的本质

以下是百度百科上查到的数据与信息的定义:

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据作具有含义的解释。 数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现心事,信息是数据有意义的表示。 数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

可以看出,这里数据及信息的定义还是比较生硬,比较模糊, 而在实际应用中数据与信息有很深的联系,常常被混合用在一起。 我重新把信息与数据的关系拉开看,用下面的图来表述这个关系。 WX20180130-105719   有种说法是世界上几乎任何事物都可以用信息的方式量化。这里的事物就是信息的主体,信息主体的信息被采集并量化(比特化的过程),数据就是这个信息量化后的载体。作为载体,数据本身不带有任何目标,也不是目标,数据的应用才是数据价值所在和最终目标。 数据的应用过程的起点就是信息的还原,信息的表现往往也是以数据形式存在。 在 TalkingData 的数据中信息的主体就是人,但 TalkingData 并不是对人的信息直接采集,而是通过现代人的随身必备的介质——手机,来采集人的信息。 信息的釆集是通过 SDK 获取的信息主体所做的移动互联网行为数据。当然,从信息主体的人的角度来看,TalkingData 的数据采集能力只是很有限的能力,采集的数据也仅仅是人这个信息主体上的数据片段。 信息主体能够被数据化的能力取决于数据的釆集技术和能力的发展。过去,在小数据时代,人的信息釆集能力仅限于关键性信息,而且很多的数据分布在无数不同的场景中,很难收集、归拢,也无法真正还原信息主体上的信息。 随着各种全新的信息釆集手段出现,信息采集越来越丰富,才能越来越接近信息主体的真相。也就是车老师在《数据的本质》一书中谈及的完美数据。

完美数据

完美数据的提出来源于车品觉老师的书《数据的本质》,完美数据是基于一个假设:信息主体上的所有信息都是可以获取的。随着数据技术的发展,信息主体上的信息采集和数字化能力正在不断提升,完美信息正在趋近。 WX20180130-143250  

《数据的本质》TalkingData 定制版

完美数据的依据是数据采集能力变化,生活在现代社会,正常的人完全无法避开周边无孔不入的数据采集。 上个网浏览个网站,网站会记录你的浏览历史;网店买个商品,网店会记录你的所有浏览记录、交易记录;用着手机,手机上的各款应用都在记录你的移动互联网行为信息;线下逛个商场,流量摄像头、Wi-Fi 服务、Wi-Fi 探针在统计着客流量的同时,也在记录着客流轨迹;走在城市的街道上,周边的无数安保摄像头也在不停的记录着人群的图像; 在家里, 每个智能家电在提供生活便利的同时, 也在不断累积你的行为历史。 可能大家已经很恐慌了,我们的数据都在不停地被各种收集手段收集,是不是以后就没有隐私了。罗胖的跨年演讲也在用比特化脑洞的概念来强化这份焦虑。其实这些数据离完美数据的方向还很远。 举个例子,图像记录生活从远古就已经存在,图像的比特化也开始于电子图片产生,但是图片中蕴含的信息却极其复杂,现在的 AI 的图像识别能力在深度信息获取上依然有很大的局限。具体可以参考朱松纯教授在视觉求索微信公众号中的文章《浅谈人工智能:现状、任务、构架与统一》中的计算机视觉:从深到暗一节。 实现完美数据的障碍在一段时间内依然很大,体现在几个方面:信息主题的数据采集能力还不完善;采集后的数据可能分散在多个数据 DOMAIN 中,数据的整合成本与难度较大;数据的信息还原能力不足,导致大量数据无法应用,空耗着数据存储的巨大成本。 数据圈一直有个暗数据的概念,暗数据特指那些已经被采集的数据但还没有被发掘和理解的数据。 据统计,大部分企业暗数据的占比高达 90%。再拿宇宙来类比,据估算,宇宙中的暗物质、暗能量更是高达 96%。按照这样估算,我们当前能够采集的数据占完美数据的比重小得可怜。

big-data-dark-data

图片来自:KDnuggets

数据分析师们是否要开始焦虑了? 信息的作用是应用场景,既然没有绝对的完美数据,我们可否寻找业务中的最佳数据应用场景?这些场景能够在一个相对小的环境内,实现准完美数据的应用。

数据场景

场景这个词这几年很是流行,原来用于文化圈的一个词被重构用来展示人与商业的连接。伴随着新场景的创造,新体验、新流行、新洞察、新生活方式等新物种层出不穷。 数据场景展示的是数据与业务场景的连接,数据很早就已经被应用于各类业务场景中了,例如:零售中的精准营销、店铺管理、品类管理、库存管理;金融中的普惠金融、风控管理、智能投顾;物流中的线路优化、运营风控等。 但是过去由于数据采集和分析能力的局限,大部分数据场景仅仅局限于经营分析,对于整体的业务场景的支持作用有限。 每个数据场景都是对应着一个业务场景,业务场景往往可以演绎成一个系统,数据场景同样也可以演绎成一个系统的数据应用场景。 大多数的业务场景都是一个复杂的系统,这个复杂的系统往往是多个层次,每个层次又是由多个尺度组成了一个复杂的系统。我用现在极为火爆的零售场景来举个例子。 零售业态最常讲的尺度有人、货、场,我们来看看线下的大型购物中心,购物中心可能包括多家零售店、超市,组成一个较为复杂的系统。购物中心、零售商家是两个基本层次,每个层次的经营核心都是人、货、场。在这三个尺度上,购物中心与商家的数据采集和应用场景就会有很大差异。

线下购物中心对人的数据掌握一直是个难点,购物中心与商家都逐渐建立了会员体系,但是在用户与客户的转换上,线下商家一直处于被动的模式。 现在,随着 Wi-Fi 等技术的推广应用,建立了更多的数据采集点,但购物中心与商家在数据的维度与深度上依然有较大的差异。例如购物中心只能获取人的流量与轨迹, 获取不了消费关联。

购物中心的系统往往管理到的是商户,这些商户的整体销售数据购物中心可以获取,但到了每个商户的单品销售情况,往往是在单个商家的手上。

线下零售的覆盖范围有限,购物中心的选址与定位,购物中心中零售商家的选择,店铺分布都是需要大量数据来支撑。 可以看出购物中心与零售店两个层次上,零售企业都可以利用自己的人货场数据形成自己层次上的知识。在购物中心这个小的系统上建立一个知识体系来支持自己的运营工作。 购物中心并不是一个孤立的系统,周边的商业环境、配套、线上电商都是这个大系统的一部分,从系统分析的角度,需要更多层次的分析和更多尺度的分析。 我们团队开发了一套方法来系统的解剖和分析一个业务的层次和每个层次中的多个尺度,并识别出其中的关键数据场景,下图描述了这个方法的部分概况。

WX20180130-143444

数据场景的选择

在数据场景中,数据细分场景很多,但数据的采集、存储、应用能力都有很多的局限性,企业的数据负责人需要找到一种系统的分析方法来支持数据分析,让自己的数据应用更加合理。

从单一到复杂

AlphaGo 在围棋方面战胜了人类,这是数据及 AI 领域一次伟大的胜利。但是 AlphaGo 的胜利一直被认为是一次纯粹的干净的数据场景。 首先,围棋对局中的数据与信息的高度一致性,数据能够被完美还原成为信息;其次,信息是完全可以观测的,尽管对弈的人有很多其它因素,但 AlphaGo 完全忽略了人的其它因素;第三,数据中没有噪音,能够完美重现算法;最后,围棋对局中的反馈非常快,这是一个完美的数据、分析、应用、反馈的一个闭环。 大部分实际的系统相对比较复杂,在选择中要充分考虑数据和信息的这几个考虑尺度,把复杂系统分解成为多个相对简单的子系统,并逐步实现数据的价值。

从封闭到开放

在对比零售的线上与线下的用户行为分析时,我们发现,线上的电商特别是大的电商平台例如淘宝、京东,数据场景的封闭性远高于线下的场景,电商平台可以从用户的登录、商品浏览、营销参与、购物意向、订单生成、物流收件、售后服务形成了一个完整的相对封闭的数据场景闭环。 用户的业务数据、行为数据、商品关系相对完整,可以非常客观地评估用户的消费偏好、服务偏好。而线下的零售数据场景则比较开放,销售流程中的开放点太多,增大了数据采集、数据整合和数据分析应用的难度。

从粗放到细化

对于人的描述,生老病死是状态,喜怒哀乐是情绪,衣食住行是消费,爱恨情仇是关系,按照国外文献上的分类方式,这里的每个尺度都被细化成为 64 个不同细分分级。 正是因为人类的复杂程度,对于单个人的精准化营销非常困难。我们通常是把聚焦从单个个体身上拉长到一个人群分类上,通过对人的分群,实现群体特征的聚像,再通过对于特定人群的营销实现精准营销的目标。 那么对于个人的营销是否可以做到精准呢?从人类的实际案例来看,一个线下的营销人员完全可以通过精密设计的营销步骤和多次沟通不断采集信息及反馈, 同时实施带有影响力的信息反馈,最终实现精准营销。 下图描述了通过系统风险方法论定位到数据应用场景的选择样例。 WX20180130-143352

数据引擎

数据场景的选择是在企业中识别出关键的可落地的业务场景,利用采集和积累的数据,产生知识与洞察,而数据应用闭环的最后一个环节是执行。通过一个数据引擎实现数据分析的闭环反馈,实现信息采集及分析的持续优化。 2017 年,我们团队设计了这样的数据引擎的原型,这个原型参考了人的神经系统。 引擎前方是一个实时业务事件引擎,接受外界数据信息并提供数据行动决策反馈; 事件信息经过预处理后由特征选择器根据相应的知识领域,从数据源选择相应的信息特征。 数据的决策由两套系统来支持, 系统 1 由规则引擎来支撑,模拟人的直觉反应,即处于自主控制状态,快速、无意识地做出决策;系统 2 由机器学习模型支撑, 模拟更复杂的行为选择经过深度复杂思考后的决策。 下图展示了这样的一个数据引擎的结构图。 WX20180130-143408

这个系统最早被应用在金融风控中,提供营销反欺诈,交易反欺诈的检测与控制。我们也针对金融反欺诈的需求组织了 8 大类智能决策策略作为数据引擎的策略纲领。 当然这样的系统需要添加更多的能力,包括控制论因素、经济学因素、博弈论等更多复杂的自适应系统能力,才能让这个数据引擎更加健壮。 通过数据、信息、知识、执行的数据能力闭环,后续就是在事上练,不断从大量数据中通过知行合一的方法,修炼数据应用的内功。

数据治理

提起数据治理这个话题我其实比较犯怵。早在 2007 年还在 IBM 工作时,就已经开始接触数据治理的整体框架,在当时的理念当中,IT 是业务创新的增长引擎,而数据就是支持这个引擎运转的汽油。 但数据这个汽油不是我们在市场上已经看到的整理得很标准的 92 号、95 号、98 号汽油。在企业当中,无论是众多应用系统中的结构数据还是散落在各个系统中的大量非结构的数据都非常复杂。 如何找到一个方法把数据和业务需求规整到一起,再用相应的手段促进信息的低损流动,最终促进企业的业务创新,这个方法就是整个数据治理的核心。 在企业数据治理的框架之下,数据治理变成了一个非常复杂的体系,在这个体系中企业的数据成熟度被分成了 5 个级别, 而每个级别都需要基于 11 个类别来度量企业的数据治理能力。 这个数据治理框架较为完备,我们仔细评估这 11 个治理域都是针对数据的治理来定义的,完全实现这样的一套数据治理体系需要一个较为复杂的组织体系及大量的数据治理流程和工具来支撑,往往只有非常大的企业才能支撑一个比较完整的数据治理能力的构建与全面实施。

WX20180130-143646

图片来自:Data-Ed Online Webinar: Data Governance Strategies

仔细回顾过去的数据治理的落地与实践,数据治理体系的落地效果往往并不明显, 回顾总结的教训有几个:数据治理体系过于复杂,往往会被定位在一个 IT 的数据治理部门,部门把大量工作精力集中于治理,反而忘却了数据治理的核心是数据价值。 数据来源于业务,应用于业务,专注于企业级的数据治理往往要跨越多个数据应用业务部门,治理过程庞杂实际上影响了业务部门的效率。 数据驱动的业务,数据驱动的企业叫嚷了很多年,但绝大多数企业的数据应用能力还很低,很难被企业提升到一个战略层次去实施。 同样的道理,数据治理的主要操盘手 CDO(首席数据官),这个职位概念被业界提了很多年,但一个 CDO 上任以后,马上就面临着如何去平衡数据创新、部门协作、生产任务之间的平衡关系。需要一个很强的智商、情商与财商高度结合的高手才能很好处理一个大型企业的数据治理工作。 过去多年的数据实践中,也曾经看到过几个比较好的数据治理切入案例:

案例 1

某大型企业,CDO 上任一个月,就在企业最高管理层的支持下,快速砍出了三板斧:

  1. 收集了企业信息系统中 80% 的现有数据,实现了数据的集中化

  2. 快速梳理了企业数据目录,分发给各个业务部门,征求数据调用需求

  3. 分析了全部需求后,针对数据需求热度,开发了数据服务接口,开始实现对业务部门的数据服务能力。

初见成效以后,才逐渐开始了数据治理的框架建设工作。

案例 2

某大型国企,新 CDO 上任以后,系统调研了当前的企业数据状况及过去几年前任 CDO 在数据标准化、数据整合陷入的各种泥坑后,果断放弃了在当前数据上的各种整合与标准化治理工作。 继而把数据核心人才集中到外界渴求的数据内容上,针对外界需求,开发了一系列数据服务产品,迅速在政府、旅游、金融等领域建立了自己的数据应用能力, 形成数据收入。该 CDO 也成为企业业务创新的代表,成为业界的一个标杆。 这两个案例的共性是这两位 CDO 都把自己的工作中心从管理转移到价值实现上来,个人认为这是数据治理应该遵循的核心原则。下图的两种数据治理的框架图的绘制方式就基本体现了两类数据治理的理念差异。 WX20180130-143622

图片来自:West Monroe

WX20180130-143601图片来自:Data Streams

简化的数据治理

无论数据治理的复杂性如何,数据治理的核心依然是数据资产。围绕着数据资产,有两大类的数据治理方式,分别是垂直治理与水平治理。

垂直治理

垂直治理主要关注于数据产生、数据采集、数据存储、数据转换、数据应用、价值实现的数据垂直治理闭环。 下图描述的是一个企业数据的垂直治理情况。企业级数据治理的数据源来自企业应用系统, 这些数据可能会经过数据应用系统、ODS、数据仓库、数据集市、数据应用等多个数据工程节点。 节点之间的数据转换过程都需要产生大量的元数据,保证数据信息源到数据应用的信息价值过程是垂直治理的一个核心难点。 与此同时,垂直治理同样需要建立相应的治理组织,工作流程及策略标准来保障整个垂直治理的过程。垂直治理是数据治理的基础,如果一个企业对于垂直治理没能建立体系,其它的数据治理必然成为一个空中楼阁,难以发挥其应有的价值。 WX20180130-143544

水平治理

水平治理往往是在企业数据资产化或集中化以后,数据治理的重心逐渐转移到企业级数据资产的价值发掘和探索。从企业来看,数据的价值往往体现在三个主要层面:战略决策支持、管理决策支持和运营决策支持。决策支持的程度由可以定义为业务数据描述、据化诊断、数据预测、智能决策等几个层面。在水平数据治理之下,围绕着数据相关的资产,治理的过程主要有发现、规定、应用、度量等一系列过程。 WX20180130-143530

图片来自:Informatica Blog

在水平治理过程中,需要重点强调的是数据资产并不仅仅是数据本身,还需要考虑到数据相关的业务流程、支撑组织,具体应用当中需要细化到流程的节点,组织也要细化到执行个体上。只有把数据治理覆盖到企业战略、优先级、业务场景、业务策略、业务标准、架构等多个层面上,才能够真正体现数据的全面性与关联性。 第二个需要重点强调的是价值必须深入到这过程中的每一个环节,始终坚持价值为要,才能够更好的实现数据治理的目标。 数据是一个企业的重要资产之一,未来的数据治理可能像财务或人力资源部门一样会成为企业的一个业务功能部门。这个部门会逐渐建立自己的业务流程、管理流程、品质规范、信息生命周期管理过程等众多的管理过程和最佳管理实践。 这个部门会比以前企业业务和 IT 部门之间的关系更加紧密,建立起强大的协作关系来赋能业务部门的关键业务创新。从数据分析技术本身,我们也看到了众多新技术,例如机器学习技术已经被用在数据治理过程当中来数据化关键过程,并且量化管控效果及价值。 随着技术与工具的发展,更多的企业已经开始了数据治理能力的建设,相信数据治理将会从大型企业的样板工程逐步成为企业的标配,实现对数据驱动企业的全面支持。  

锐眼洞察 | 用大数据帮助创业公司成长的三个方法(翻译)

作者:Volodymyr Fedak

原文:3 ways to use Big Data to help your startup grow

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源!

译者注: 本文内容没有太多新意,但对大数据目前使用的场景与行业洞察、竞争对手洞察以及客户洞察进行了高度总结,可供参考。

持续成长是创业公司能够生存下去的唯一方法。为了达到这个目标,尽管你愿意贡献你全部的心血和眼泪来努力工作,但有时这些并不足够。大数据可能是你取得胜利的钥匙。 一个常见的误解是,大数据是Google、Facebook、Amazon这些IT巨头的特权。新朋友推荐、照片标签建议、“购买了这些产品的顾客也购买了……”以及其他可被观察到的大数据分析的结果,是来自于构建基础设施、开发工具以及训练机器学习模型等等巨额投资的成果,因此只有大公司才能有资源去做这些。

然而,有趣的是大多数人的认知并不代表真相。事实的真相是,大数据挖掘工具快速发展以及多种流行的大数据可视化工具可供选择,让大数据分析变得更加的方便和实惠,使得它们变成了每个创业公司工具包中非常重要的组成部分。这种方式可以帮助企业发现成长的空间以及产品改进的空间,指出客户的趋势和购买习惯或者发现市场空白,更不用说还能够优化成本。 需要谨记的是使用大数据分析应该有一个清晰的目标,并且优化成本不应该成为唯一的主要目标。

该如何正确的使用大数据分析呢?如下是使用大数据来帮助你的创业公司成长的三个方法。

利用大数据了解你的行业

在你能想到的每一个市场,都有多个公开的数据来源。对于你想了解的任何问题,都有大量的信息,包括公司发布季度报告、分析机构汇总数据,整理为清晰的表格并指出趋势。但是使用传统的商业智能方法或者手动分析可能会耗费你大量的时间、金钱或者二者兼而有之。最好的方法是借助机器学习算法来实现。完成训练之后,它可以利用无服务器计算技术(AWS Lambda或者微软Azure Functions)按需提供当前行业现状的快照。或者,可以构建一个监控工具,针对当前市场趋势和模式的提供持续的监控以及历史数据。

像这样的方案仍旧不能以标准软件包的形式来提供,而必须从有经验的承包商进行服务订购。同时,鉴于第一波炒作期已经过去,在过去几年这种类型的服务价格已大幅度下降,并且也有很多公司开始提供大数据科学服务。

利用大数据了解你的竞争对手

你的竞争对手所提供的产品和服务、以及所强调的功能,他们的客户留下的反馈和指出的缺陷,在各种论坛和社交媒体上都有很多讨论和建议,可以作为类似产品和服务发展方向的参考。 分析这个数据金矿将帮助您找出改善空间、市场空白以及不同的趋势,避免与竞争对手犯同样的错误,并提供目标受众所需的功能和服务。

这是一个持续的过程,需要利用大数据分析和机器学习算法去帮助企业保持耳聪目明,从而能够对市场情况变化进行快速反应。

利用大数据了解你的客户

忠诚的客户是任何企业的主要资产(当然,除了一个强大而充满激情的团队之外)。客户忠诚度是随着时间的推移而建立起来的,包括许多小的因素和效果,如折扣券、VIP俱乐部特权、忠诚奖金等等。然而,这其中很多被认为是理所当然的标准配置,创业公司还应该发明新的方法来赢得和维持客户的忠诚度,并带来品牌宣传和口碑的提升。

其中一种方法是使用大数据来跟踪客户的购买流程,就像我们在之前的文章中所描述的那样:为什么企业应该在竞争对手之前使用大数据

简而言之,了解平均家庭主妇的购物习惯,可以让供应商发送有针对性的广告和有时间限制的优惠券,从而能够打动客户并达成购买。

同样的原则也适用于刚刚起步的创业公司,因为他们必须吸引受众,提供一些新鲜的产品或服务。可以看出,实现和超越客户的期望,正是帮助创业公司成功和成长的所在。

结论

以上是使用大数据来帮助您的创业成长和繁荣的三种方式。 如您所见,使用大数据不再是国际公司的特权。 由于市场的民主化和数据科学服务公司数量的增加,提供了负担得起的大数据分析和机器学习服务,现在创业公司可以从一开始就实现数据驱动。 除了资源的优化配置和有效的市场营销举措外,使用大数据还可以利用快速变化的市场形势来获益。