锐眼洞察 | 用大数据帮助创业公司成长的三个方法(翻译)

作者:Volodymyr Fedak

原文:3 ways to use Big Data to help your startup grow

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源!

译者注: 本文内容没有太多新意,但对大数据目前使用的场景与行业洞察、竞争对手洞察以及客户洞察进行了高度总结,可供参考。

持续成长是创业公司能够生存下去的唯一方法。为了达到这个目标,尽管你愿意贡献你全部的心血和眼泪来努力工作,但有时这些并不足够。大数据可能是你取得胜利的钥匙。 一个常见的误解是,大数据是Google、Facebook、Amazon这些IT巨头的特权。新朋友推荐、照片标签建议、“购买了这些产品的顾客也购买了……”以及其他可被观察到的大数据分析的结果,是来自于构建基础设施、开发工具以及训练机器学习模型等等巨额投资的成果,因此只有大公司才能有资源去做这些。

然而,有趣的是大多数人的认知并不代表真相。事实的真相是,大数据挖掘工具快速发展以及多种流行的大数据可视化工具可供选择,让大数据分析变得更加的方便和实惠,使得它们变成了每个创业公司工具包中非常重要的组成部分。这种方式可以帮助企业发现成长的空间以及产品改进的空间,指出客户的趋势和购买习惯或者发现市场空白,更不用说还能够优化成本。 需要谨记的是使用大数据分析应该有一个清晰的目标,并且优化成本不应该成为唯一的主要目标。

该如何正确的使用大数据分析呢?如下是使用大数据来帮助你的创业公司成长的三个方法。

利用大数据了解你的行业

在你能想到的每一个市场,都有多个公开的数据来源。对于你想了解的任何问题,都有大量的信息,包括公司发布季度报告、分析机构汇总数据,整理为清晰的表格并指出趋势。但是使用传统的商业智能方法或者手动分析可能会耗费你大量的时间、金钱或者二者兼而有之。最好的方法是借助机器学习算法来实现。完成训练之后,它可以利用无服务器计算技术(AWS Lambda或者微软Azure Functions)按需提供当前行业现状的快照。或者,可以构建一个监控工具,针对当前市场趋势和模式的提供持续的监控以及历史数据。

像这样的方案仍旧不能以标准软件包的形式来提供,而必须从有经验的承包商进行服务订购。同时,鉴于第一波炒作期已经过去,在过去几年这种类型的服务价格已大幅度下降,并且也有很多公司开始提供大数据科学服务。

利用大数据了解你的竞争对手

你的竞争对手所提供的产品和服务、以及所强调的功能,他们的客户留下的反馈和指出的缺陷,在各种论坛和社交媒体上都有很多讨论和建议,可以作为类似产品和服务发展方向的参考。 分析这个数据金矿将帮助您找出改善空间、市场空白以及不同的趋势,避免与竞争对手犯同样的错误,并提供目标受众所需的功能和服务。

这是一个持续的过程,需要利用大数据分析和机器学习算法去帮助企业保持耳聪目明,从而能够对市场情况变化进行快速反应。

利用大数据了解你的客户

忠诚的客户是任何企业的主要资产(当然,除了一个强大而充满激情的团队之外)。客户忠诚度是随着时间的推移而建立起来的,包括许多小的因素和效果,如折扣券、VIP俱乐部特权、忠诚奖金等等。然而,这其中很多被认为是理所当然的标准配置,创业公司还应该发明新的方法来赢得和维持客户的忠诚度,并带来品牌宣传和口碑的提升。

其中一种方法是使用大数据来跟踪客户的购买流程,就像我们在之前的文章中所描述的那样:为什么企业应该在竞争对手之前使用大数据

简而言之,了解平均家庭主妇的购物习惯,可以让供应商发送有针对性的广告和有时间限制的优惠券,从而能够打动客户并达成购买。

同样的原则也适用于刚刚起步的创业公司,因为他们必须吸引受众,提供一些新鲜的产品或服务。可以看出,实现和超越客户的期望,正是帮助创业公司成功和成长的所在。

结论

以上是使用大数据来帮助您的创业成长和繁荣的三种方式。 如您所见,使用大数据不再是国际公司的特权。 由于市场的民主化和数据科学服务公司数量的增加,提供了负担得起的大数据分析和机器学习服务,现在创业公司可以从一开始就实现数据驱动。 除了资源的优化配置和有效的市场营销举措外,使用大数据还可以利用快速变化的市场形势来获益。

锐眼洞察 | 在员工培训中利用大数据的4种方法(翻译)

作者:insideBIGDATA编辑部

原文:4 Ways to Use Big Data in Employee Training

译者:TalkingData 曾晓春

本译文禁止商用,转载请注明来源与译者!

大数据及其背后的技术已经成为推动现代企业发展的主要因素之一。一个IDG Research的研究发现,80%的大型企业和63%的小型企业正在使用或计划部署大数据解决方案。分析从公司各种活动中收集的信息,能够使公司作出更明智和及时的决策。

即使整合的数据量不断增加,如果不是快速分析和多种需求的结构,它也没有什么价值。数据科学家和更好的大数据工具的需求一直在增长,因为它包含了更多的业务功能。

其中之一就是员工培训。可以分析技能开发中产生的数据以提高培训效率。以下是一些大数据可以在培训过程中节省公司时间和资金。

确定培训需求

性能分析可以指出企业内部需要何种培训,包括特定的工作角色、团队或个人雇员需要进行的培训。然后,公司可以选择课程,以确定应涵盖的技能和主题,并找到最合适的培训计划。

有种各样可以使用的方法,例如教室布局、在线课程、小组研讨会或示范。您必须评估您的选择,以选择最适合您的员工能力,工作时间表和企业需求的培训。同时也需要购买或准备需要的材料以支撑教学需要的技巧和信息。这可以是印刷或数字文件、视觉辅助工具、技术和工具的混合。大数据可以指导你正确的购买。

个性化的方法

人力资源经理可以使用分析来定义员工能力的特定优势或劣势,并进行必要的调整。应该对每个培训计划进行监控,以确保培训过程和结果的有效性。这可能需要更个性化或更具创造性的技巧。

先进的教育技术可以让您对每个员工进行评估,并根据每个人的进展进行个性化的定制培训策略。大数据可以将每个受训者的测试分数与更大的数据集(如人口统计数据和测试历史)相结合,以确定哪些方法是有效的,以及哪些需要进行强化或再训练。持续评估将显示哪些培训模块对某些员工最有效。

不断的改进

通过对培训数据的分析,人力资源和高级管理人员可以不断改进培训计划。大数据可以更清楚地了解哪些模块有效,哪些主题难以学习,以及员工如何与提供给他们的材料和培训形式进行交互。通过访问基于云的分析工具,您可以实时查看更新,并在培训继续时调整您的方法。

远程员工也是如此。云为越来越多的移动劳动力提供了一个非常灵活的数据和服务解决方案。云计算使虚拟员工无需前往办公室即可获得企业培训的所有好处。

不断增长的学员表现和对不同科目的反馈数据将为提高培训效率提出建议。

未来的期望

我们会看到大数据和可持续实践将是未来的两大商业趋势。两者都促进流程的优化以获得更高的利润率。确保你的团队有足够的核心业务活动和不断变化的技术培训,帮助你的企业在未来保持盈利。

大数据还可以预测未来的发展趋势。在商业竞争开始之前,你将能够适应训练计划。21世纪的商业环境中,接受社会责任将会提高你的品牌和员工的积极性。消费者期望负责任的做法,而工人可以有信心提高职业技能。

培训员工参与可持续发展是关键的一步。通过在培训项目中利用大数据技术,您可以为您的员工提供新的机会,为您的公司带来更多可持续的利润。

结论

大数据和分析工具是现代企业必不可少的资产。当应用于改善培训计划时,员工的情绪会得到更大的改善,他们的技能会增加公司的利润。不断增长的数据将有助于提高结果的准确性,同时预测趋势和培训需求将创建更加灵活的业务模式。

有效地获取和构建培训操作中的数据,使您能够执行大数据分析,从而提高产出、质量和员工参与度。持续的改进使您有可能更快、更持续地提升员工技能,以满足云计算和远程工作人员等新的员工发展需求。

大数据使您能够预测市场和行业趋势,从而使公司内的员工可以获得所需的培训。作为个人或组织,团队将能够更加顺畅和高效地适应业务变化。

锐眼洞察 | 2018年大数据趋势(翻译)

作者:George Hill

原文:Big Data Top Trends 2018——We take a look at what will happen to big data in the next 12 months

译者:TalkingData解决方案架构师 张雪倩

本译文禁止商用,转载请注明来源与译者!

 

2017年是数据成为主流的一年,从业内人员所认为的流行语转变成为所有人都在谈论的东西,无论是关于大数据黑客的描述还是人工智能抢走人们工作的恐怖故事。突然之间,数据确确实实在大众观念里占有了一席之地,没有以应有的方式使用数据的人,结果都受到了批评。然而,接下来的12个月很有可能见证数据启蒙更加扩大,市场改变速度更快。

就是这样一幅极难预料的动态图景,我们每年尽力去拼凑对接下来12个月的预测:

更多地向云端转移

没人会奇怪企业都看到了曙光,纷纷向云端转移。起初关于云端数据安全性的担忧,被这样的观念所替代——当在网上发布东西时,云端相比于大多数公司所能提供的都要安全得多。

越来越多的员工远程办公,意味着无论他们在世界各地的哪里,都有安全获取数据和分析工具的需求,使得大数据即服务(BDaaS)成为了日益重要的工具。当可扩展性、速度、便捷性和成本都得到了增加,Forrester预测下一年50%的企业都会采取云优先政策,也不是什么新鲜事了。

“实时”持续增长

根据“垂直分层分析市场——全球市场预测与分析(2015 – 2020)”报告,在2015 至2020年间,实时分析预测平均每年增长31.3%,似乎其在市场上仍起支配作用。

多亏了科技的普及和成本的降低,曾经仅限于大公司和有钱公司的举措现在在中小公司中越来越常见。越来越多的公司寻求内存和芯片内方法来尽可能快地获取和分析数据,一旦竞争者开始运用这项技术来更快地作出决策,市场也会被迫接受它。

根据罗杰斯采用曲线,目前我们刚刚开始从早期采用者发展为早期多数人群,但2018年是我们开始进入早期多数人群阶段的时间。这一趋势也是由日益增长的必要性所驱动的,大大小小的公司收集和分析数据以在各自的市场中保持竞争力。所以不单单是跨国集团需要实时分析,人人都需要。

掩埋大数据

“大数据”这一词会悄悄地重复IT的老路,有很宽泛的意思但单独来说几乎没什么意义。和IT一样,大数据是个在人们头脑中涵盖了太多的词,以至于除了对知之甚少的人说“我在大数据领域工作”以外,没有真正确切的意义。

现在有太多不同的东西可以算在大数据内,从机器学习和数据收集到分析和数据安全,其中任何一项和另一项都没有太大的关系,但仍归类为“大数据”。由于黑客、机器人、自动驾驶汽车和无数其它数据驱动的技术,即使在大数据领域没有相关利益的人中,对这些领域的认识也在不断提升。

这意味着即使大数据这个词的使用不会消失,把它用来描述整体数据以外的用法也会消失。大数据已死,大数据万岁。

媒体审查增加

过去一年中出现的大型黑客事件的数量意味着公众现在完全意识到了公司拥有多少数据,一旦这些数据丢失会造成多大损害。我们还从铺天盖地声称俄罗斯影响美国大选的媒体报道中发现了数据企业实际上持有多少个人数据,无论是脸书还是更加秘密的民意调查公司。

我们还看到了对人工智能和自动驾驶汽车等部分数据图景的极大兴趣,这在全球都曾成为重大新闻。尤其是人工智能,许多危言耸听的说法使其在许多新闻媒体的报道中都是热点话题。

这一觉醒意味着数据不再只是技术达人关注的领域,而是和其它主流话题一样被大众媒体报道。这意味着这些领域很有可能受到审查,只是因为现在公众了解的更多了。

这对行业来说是福是祸还有待观望。一方面,它会将公众指引到历史上被忽略的地方,但另一方面,它会带来部分谣言,和人工智能夺走人们的工作类似。

量子计算机更加真实

目前,量子计算机不过是有一些惊人数字支持的理念。谷歌、图灵研究所、微软、因特尔和许多其它公司已经做了许多令人赞叹的量子计算机实验,但现实却是我们离真实可用的量子计算机还有一定距离。

然而,经过2018年,随着进行更多各种各样的实验,我们很有可能看到量子计算机更加成型。根据2016年7月谷歌发布的一篇论文,到2017年底,他们就会有49量子位的计算机工作,这意味着它会远远超越任何现存的超级计算机。我们听说,谷歌透露说50量子位是原理证明,能立时呈现10,000,000,000,000,000位数字,远超我们目前所能生产的普通的计算机的存储能力。

2018年不会是量子突然开始成为常态或全球最大的公司可以使用的一年,但我们目前看到的是“这对开发出一部完全可扩展的机器来说绝对是进步”,牛津大学实验物理学Hooke教授和科研副校长Ian Walmsley这样说。

黑客规模更大

Benjamin Franklin(本杰明﹒富兰克林)曾说过一句很有名的话“在这个世界上,一切都不是绝对的,除了死亡和纳税以外”,在2018年,我们可以加上“还有大型黑客事件会影响公司”。

最大的10次非法入侵中8次都发生在过去3年中并非偶然。数据安全性可能在提高,但是基本上与想偷数据的人技术增长速度同步。如今,随着大量数据被收集,大型黑客事件只会继续增长,我们在写这篇文章的时候,Uber黑客事件真正的规模和其掩盖行为正遭到曝光,目前已明确了的是5700万账户信息被盗取,而且Uber花了10万美元来让黑客保持沉默。

随着数据收集更多,公司花钱或让黑客解锁数据或使其停止分享这些数据,这种事只会向坏的方向发展。根据Symnatec的研究,相比于2016年,公司支付用勒索软件入侵的黑客的金额急剧增长了266%。与此同时,很少有人因黑客行为被捕。如果黑客行为获利金额增长,而且只有很小的可能性被抓,现实就会变成,人们将其看作机会,黑客活动也会增加。

人工智能继续前进

人工智能正对世界产生巨大的影响,鉴于2017年我们看到的巨大进步,其在接下来的12个月中只会增长。越来越多的公司正在采用人工智能技术进行任何数量的行为,从相对较基础的应用如仓库管理和聊天机器人,到更复杂的部分,如会计和数据科学,不过这很有可能在接下来的12个月中更深入发展。

其中最重要的部分会是自动驾驶汽车能力更加强大,在更多地形的用途和性能上都有所体现。例如,英国财政大臣宣布2024年开始,自动驾驶汽车将会批准上路,但是到那时也只是有人类在驾驶舱的情况下才可以。我们还会看到更多的人工智能解决极其复杂问题的实验,DeepMind在这方面就走在前列,即使目前仅仅表现为围棋和象棋等游戏的形式。然而,2018年可能会是我们看到这些要素成为人工智能更加深入发展基础的一年。

随着Google Home和Amazon Alexa等产品极大增多和Apple HomePod将更多设备带进人们家中,我们还可以看到,人工智能走进了千家万户。这不单单是一时的热潮,根据加拿大皇家银行资本市场3月份的研究,“声控互联网”设备到2020年可能会有100亿美元的市场,到那时显示出巨大的增长。亚马逊目前控制着70%左右的市场,随着Alexa在2017年第二季度销量增长了25%,这表明市场还没有被完全占领。

锐眼洞察 | 大数据实施为什么需要方法论指导?(翻译)

作者:Kayla Matthews

原文:Why You Need A Methodology For Your Big Data Research

译者:TalkingData副总裁 高铎

本译文禁止商用,转载请注明来源与译者!

译者摘要:

  • 靠谱的大数据方法论指导,能让企业在实施大数据方案时少走弯路;
  • 方法论实施的核心,是能确定收集和整合的数据,以及模型和工具,能够创造商业价值;
  • 实施大数据方案时,既要考虑效能和生产力,也要考虑法律和道德问题。 

靠谱的研究方法可以帮助大数据管理团队收集更好、更智能的信息。利用大数据进行分析的企业,尤其是有靠谱研究方法论指导,其盈利能力和生产效率普遍比竞品高出5~6%。

企业可能认为大数据能大幅提高效率,而立即寻求扩大大数据管理的能力和范围,但如果没有适当的方法论支持,大量时间和金钱的投入很可能无济于事。很多大数据战略失败的公司,都是缺乏关于大数据、分析以及工具之间如何相互作用的规划。

在实施大数据方法论时,一个谨慎的方案应该包括数据科学家、工程技术专家、业务管理人员和高层管理人员,这些角色结合在一起,用他们各自的专业知识来制定全面的计划。项目启动和团队选择是方法论得以成功实施的关键,因为它强调了企业必须做出的决策,以及这些决策如何影响最终目标,以实现更快的增长或更高的利润率。

一个靠谱的大数据方法论,应该明确所处理领域理想的分析工具和模型,确定要集成哪些内外部数据,并制定一个组织架构以适应数据流的目标。

收集和整合数据

大数据是战略决策的生命线,可能会影响公司是否会盈利或遭受损失。特别是在当今数字时代,很多企业都淹没在大量数据里面,挣扎着去寻找相关性。由于社交媒体平台的大量出现,如今的数据量特别巨大,这些平台提供了对客户行为数据的洞察。

搜集数据和了解哪些数据是优先考虑因素,是建立方法论的重要方面,它可以指出在哪些新数据能力方面需要进一步投入。短期选择可以是把问题外包给外部数据专家,虽然这可能是昂贵的,对有些企业来说甚至要求过高。在企业内部,可以通过将交易数据和其它数据分开来整合分析报告,也可以尝试实施一些数据治理标准,以避免在准确性和一般合规性方面的失误。

利用分析模型和工具

虽然实施方法论时,数据的整合是至关重要的。但是如果没有高级的分析模型来帮助优化结果并根据这些数据做预测分析,那么整合就没有多大价值。方法论是要确定模型如何创造商业价值,譬如关于客户购买历史数据,如何影响他们通过电子邮件收到的折扣类型。

另外,方法论要能利用分析模型来帮助企业解决数据存储的优化问题。从有意义的数据中分离出多余信息的模型,可能会触动企业的底线,会对生产结果造成巨大的影响。将数据集成到日常流程和业务活动中的工具,可以为许多功能提供一个易于理解的界面,无论是员工时间表,还是决策提供哪种优惠券。

而行业将关注其核心领域的数据。如运输公司比店面更依赖GPS和天气数据,而医院则需要有关药物功效的数据。无论如何,分析大数据的关键点是最重要的,尤其是分析它们如何与日常生活相互作用。

实施方法论的挑战

有效的大数据研究方法论将有助于解决企业面临的一些常规问题,尤其是将投资重点与公司战略结合考虑的时候,重点将聚焦在业务参与与成本之间的平衡。

如果能检测异常数据集,将会提高前端业务参与度和总体效率,有助于提醒需要手动参与分析的研究人员(优化预先存在的机器学习算法和自动交易数据)。大数据研究的方法论应该能准备好时刻识别异常,并制定计划如何去解决这些异常。

此外,无视负责任的大数据研究方法论,可能会陷入法律和道德问题,因为其涉及数据共享和用户数据的使用,特别是在社交网络里面。因此,方法论应该在考虑效率和生产能力时,也要考虑道德。

大数据方法论研究中考虑相关道德问题,通过相关分析工具将数据收集并整合到有组织的系统里面,可以更合规地提高企业的生产效能和盈利能力。

 

锐眼洞察 | 大数据平台的思考

作者:TalkingData首席数据科学家 张夏天

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

 

目前我们正在规划我们新一代的智能数据平台;这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。

在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。

自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。

但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。

复杂与失控的现实

复杂的大数据

首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。

可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。

可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。

复杂的技术

其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。

但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。

另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。

综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。

大数据平台设计哲学的重构

面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此,我有一些思考。

拥抱不完美

首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。

经验与价值的沉淀

还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?

因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。

当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。

我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。

从标准化到社区化

利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。

弹性与开放

从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。

很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。

因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。

这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。

同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。

适应而不是约束

最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。

其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。

正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。

总结

写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。

TalkingData营销云技术实践——基于RocksDB的高效标签计算

作者:王福胜

“营销云”(TalkingData MarketingCloud) 是TalkingData发布的新一代广告营销数据管理平台,利用超过40亿移动终端数据的覆盖优势,实现了从人群构建、多维洞察到同步投放、客观监测的一体化解决方案。

TalkingData积累了40多亿移动设备的数据, 并且基于这些数据建立了自己的标签体系。 现有12大类超过800个受众定向标签,包括人口属性,设备属性,位置属性,兴趣,消费特征,安装的应用App等。这些标签关联的设备累加起来超过700亿。 如何利用这些标签为用户提供快速的标签人群构建,对人群进行多维度的快速画像是一个挑战。

继续阅读TalkingData营销云技术实践——基于RocksDB的高效标签计算

40亿移动设备的用户画像和标签架构实践

作者:王鹏

大家好,我是来自TalkingData的王鹏,很高兴在这里和大家一起探讨大数据的应用。

说起大数据的应用可能很多朋友们脑子里边第一映像就是画像,我想从以下几个方面跟大家聊聊画像相关的事情:1、什么是画像;2、画像的用处;3、如何进行用户画像;4、画像应用中的难点。

20160130141003_843c3210dbf729e2bb84eafca75c1db5_1

继续阅读40亿移动设备的用户画像和标签架构实践