数据科学家,还是非“野生”的比较好

作者:佚名

本文转自:大数据文摘

公民数据科学家(Citizen Data Scientist , CDS)的概念始于2017年,在2018年火爆全球。

似乎可以将CDS看作公民科学家概念的延续,这个概念背后的想法是:技术辅助工具已经非常先进,自动化调参工具的出现、各种MOOC自学平台上课程和实验室层出不穷,所以现在,如果付出足够多的学习时间,似乎所有人都可以迅速具备收集和分析数据的能力,也就是,成为一名“数据科学家”了。

似乎可以将CDS看作公民科学家概念的延续,这个概念背后的想法是:技术辅助工具已经非常先进,自动化调参工具的出现、各种MOOC自学平台上课程和实验室层出不穷,所以现在,如果付出足够多的学习时间,似乎所有人都可以迅速具备收集和分析数据的能力,也就是,成为一名“数据科学家”了。

这一概念不止激励鼓舞了大批想要成为“数据科学家”的个人,也让很多缺人的企业有了希望。

数字信息的增长已经对数据科学和分析专业人员产生了越来越大的需求。与之相对,相关人才供给远远不够。因此,供需之间的差距正在扩大。

不断增长的数据职场缺口下,雇佣这一类公民数据科学家,是许多大公司面临“人荒”困境,寄予厚望的解决方案。

大批非相关专业出身、靠着自我培训和技术工具成长起来的公民数据科学家,开始涌入这个领域。

草根公民数据科学家的特征

那么,“草根”出身的公民数据科学家有什么特点呢?

如上图,尽管是非统计等数据科学相关专业出身,我们并不否认,来自业务领域或者其他专业的公民数据科学家,本身具备以下优点:

  • 深耕业务领域,对组织机构有深刻认知,对与业务优先次序相关的问题的兴趣;
  • 对商业领域有独特视角、分析技术在商业问题中的实证应用、可以证明商业价值;
  • 参与多个分析领域和活动、有着实践经验并且有着广泛人脉。

“草根”数据科学家有风险

“草根”公民数据科学家越来越多,他们开始不止从事最基本的数据收集和分析工作,也开始承担数据的预测等核心工作。

就像耐克声称他们的Air Jordans可以让每个邻居小孩成为下一个皮蓬(Scottie Pippen)非常不靠谱一样,技术带来的辅助力量是有限的,风险也开始随之出现。

显而易见,虽然现在所有电动工具都可以在商店买得到,但并不是所有人都可以成为木匠大师;就算有很多在线炒股软件,也并非所有人都能成为百万富翁交易员。

真正的科学要通过专业训练。这是不管多少技术工具都无法取代的。

“高质量的数据仍然非常重要”,针对“公民数据科学家”,全美排名第四的CTO、天睿公司首席技术官、全球数据仓库技术专家Stephen Brobst告诉大数据文摘,现在尽管分析工具越来越智能,但他们的使用前提依然是没有偏向(bias)的数据,和懂得这些数据的专业人士。

“深度学习算法实际上非常适合处理数据质量问题。很多公司现在用无监督学习的反馈循环来解决数据质量问题,但我们还是希望,在数据搜集的过程中就尽量最小化数据偏见。数据科学没有魔法,它不是一个工具就可以解决的问题。你可以通过一些步骤来测试有偏见的数据,但这是件很微妙的事情。”

“你必须雇用那些知道自己在做什么的人。”Stephen称,业内现在存在很多只懂业务、不懂统计的“公民数据科学家(citizen data scientist),这是非常危险的。他们严重依赖技术工具进行数据搜集和分析,并不知道自己在做什么,“这很可能会导致严重破坏性的结果。”

“草根”数据科学家为什么危险?

以下几种原因可以解释:

首先,认知偏差。下边这张图可以很清楚地解释什么是认知偏差。

技术能力可以靠短期培养,但是,认知能力不行,它需要几年甚至十几年的专业训练。不同专业的人对待同一组数据和场景会有很不同的认知。

其次,研究逻辑谬误,或者说辛普森悖论。

所有技术工具的使用前提是假设你的数据首先是优质无偏差的,大多数“草根”数据科学家通过SQL入门,并直接跳入Keras和TensorFlow ……

毕竟MOOC(慕课,同为在线学习网站)的认证课程中就是这么教的。

第三,数据的民主化并不直接导致洞察力的民主化。

这一点很容易理解。eBay并没有让每个人都一夜成为零售巨头,手机也并没有提高人们的智商。尽管现在我们比以往任何时候都有着更多的健康和饮食信息,但世界上的人比以往任何时候都更加肥胖。工具速度,工具规模,正确的使用方法 – 这些永远不会取代真正的专业训练。

所以,放弃“草根”数据科学家的幻想吧!

现在坐下来脚踏实地学习一些有意义的、真正的智慧建立和验证的东西。技术工具允许我们所有人都充满渴望,只有那些投入时间和精力,拥有专业训练和教育的人才能够提升到可以提供有意义和预测性分析的水平。

咨询专栏丨信用卡App运营中的数据分析

排在“衣食住行”的首位,服装早已从遮体的生活必需,演变为个性化的态度彰显,服装行业也成为新零售的一个典型场景,不断探索新思路、新玩法。

数据显示,预计到2019年,服装消费市场规模将达到15,920亿元。市场虽大,但竞争也异常激烈,新消费时代下的市场消费结构与大众消费需求的改变,促使服装品牌纷纷踏上转型的征途。在国际大牌与快时尚品牌的夹击下,本土服装品牌该如何破局?旗下拥有六大品牌、站稳细分市场领军地位的影儿时尚集团,已经走出了成功的一步。

从以产品为核心的传统运营方式,转向以消费者为中心的新运营方式,影儿时尚集团开启了从设计到生产交付、从营销到销售、从运营到服务的全面变革,通过场景、互动、连接、体验来提高品牌用户粘性,挖掘创造新客群、新需求、新服务。

围绕消费者打造整合线上线下的数字化运营闭环,推动会员的数字化运营,实现业务价值的可量化效果是转型的关键步骤。影儿时尚集团选择与国内领先的第三方数据智能服务商TalkingData合作,以数字化运营、数字化决策为目标,构建数字资产、搭建数据平台,实现消费者数字化、产品数字化、渠道数字化,以服务业务应用。

影儿时尚集团数字化会员项目总体设计蓝

基于这些需求,TalkingData为影儿时尚集团定制了数字化基础架构、数字化平台技术、数字化平台应用、数字化业务场景、数字化运营五大部分组成的整体解决方案。

一方面,搭建数字化基础架构,提供一系列数字化平台技术,通过专业的业务咨询团队,整合一方交易数据、二方用户行为数据、三方外部补充数据。另一方面,基于影儿时尚集团自身业务特征设计相应会员、产品、渠道标签体系。此外,构建满足多品牌、多渠道、多业态用户运营的不同模型组合,满足影儿时尚集团全渠道运营、会员数字化运营、微商城数字化运营的业务诉求。

通过数字资产建设、数字化平台建设、数字化运营三大阶段,TalkingData用半年时间帮助影儿时尚集团走通了从数据到业务的闭环:

  • 数字资产建设:TalkingData对影儿时尚集团的业务形态与运营现状进行了深入调研,制定数据采集规范与会员标签体系,洞察用户价值表现和所处生命周期,预测后续购买情况,帮助影儿时尚集团优化营销资源配置,最大化营销效果。
  • 数字化平台建设:搭建数据平台、用户运营平台、商城运营分析平台,将数据整合为业务需求,并为业务部门和信息技术部门提供专业培训。同时借助线下数据收集和积累,量化分析客流趋势与不同门店客群特征,为门店渠道选择提供线索。
  • 在前两个阶段的基础上,形成数字化运营闭环体系。基于业务场景和用户画像制定营销活动策略,运用标签体系进行目标人群圈选与精准触达。同时对活动过程实现全链路数据监测追踪,实时通过数据反馈调整活动,最终分析活动整体从曝光到消费的效果转化,进而指导后续活动策略和人群运营策略的优化。

数字化活动运营流程设计

在近期的一次拉新活动中,通过TalkingData外部数据标签和影儿时尚集团会员数据进行打通,对影儿时尚集团用户的画像洞察发现客户群中有大量忙于工作的妈妈人群,同时根据线上的行为特征发现和某专业洗护品牌具有强关联性。

因此针对性设计了“减轻妈妈家务负担”活动主题,选择该专业洗护品牌作为异业合作方,最终实现单次推广公众号增粉4万多人、获新4千多人、ROI高达30倍的优异成绩。更为重要的是通过此次活动跑通了从业务场景出发、圈取人群投放、过程监测与最终效果分析的数据化运营路径,赋能影儿集团数字化运营能力,是对影儿时尚集团与TalkingData合作构建数字化运营闭环体系价值的一次最佳验证。

关于影儿时尚集团

影儿时尚集团自1996年成立以来,先后创建了YINER音儿、INSUN恩裳、PSALTER诗篇、Song of Song歌中歌、OBBLIGATO奥丽嘉朵和XII BASKET 十二篮六大品牌,成为一家集投资、研发、创意、营销、服务于一体、以时尚行业为主导、跨行业发展的大型多元化企业。

目前,影儿时尚集团拥有深圳龙华、观澜和上海松江三大产业园,在全国拥有14大区域销售分公司,1500多家门店和数百万会员,领先同侪,被业内专家认为是“中国服装业国际化的开始,将带动深圳乃至全国女装的国际化发展。”

案例丨TalkingData助力影儿时尚集团产消者数字化运营

排在“衣食住行”的首位,服装早已从遮体的生活必需,演变为个性化的态度彰显,服装行业也成为新零售的一个典型场景,不断探索新思路、新玩法。

数据显示,预计到2019年,服装消费市场规模将达到15,920亿元。市场虽大,但竞争也异常激烈,新消费时代下的市场消费结构与大众消费需求的改变,促使服装品牌纷纷踏上转型的征途。在国际大牌与快时尚品牌的夹击下,本土服装品牌该如何破局?旗下拥有六大品牌、站稳细分市场领军地位的影儿时尚集团,已经走出了成功的一步。

从以产品为核心的传统运营方式,转向以消费者为中心的新运营方式,影儿时尚集团开启了从设计到生产交付、从营销到销售、从运营到服务的全面变革,通过场景、互动、连接、体验来提高品牌用户粘性,挖掘创造新客群、新需求、新服务。

围绕消费者打造整合线上线下的数字化运营闭环,推动会员的数字化运营,实现业务价值的可量化效果是转型的关键步骤。影儿时尚集团选择与国内领先的第三方数据智能服务商TalkingData合作,以数字化运营、数字化决策为目标,构建数字资产、搭建数据平台,实现消费者数字化、产品数字化、渠道数字化,以服务业务应用。

影儿时尚集团数字化会员项目总体设计蓝图

基于这些需求,TalkingData为影儿时尚集团定制了数字化基础架构、数字化平台技术、数字化平台应用、数字化业务场景、数字化运营五大部分组成的整体解决方案。

一方面,搭建数字化基础架构,提供一系列数字化平台技术,通过专业的业务咨询团队,整合一方交易数据、二方用户行为数据、三方外部补充数据。另一方面,基于影儿时尚集团自身业务特征设计相应会员、产品、渠道标签体系。此外,构建满足多品牌、多渠道、多业态用户运营的不同模型组合,满足影儿时尚集团全渠道运营、会员数字化运营、微商城数字化运营的业务诉求。

通过数字资产建设、数字化平台建设、数字化运营三大阶段,TalkingData用半年时间帮助影儿时尚集团走通了从数据到业务的闭环:

  • 数字资产建设:TalkingData对影儿时尚集团的业务形态与运营现状进行了深入调研,制定数据采集规范与会员标签体系,洞察用户价值表现和所处生命周期,预测后续购买情况,帮助影儿时尚集团优化营销资源配置,最大化营销效果。
  • 数字化平台建设:搭建数据平台、用户运营平台、商城运营分析平台,将数据整合为业务需求,并为业务部门和信息技术部门提供专业培训。同时借助线下数据收集和积累,量化分析客流趋势与不同门店客群特征,为门店渠道选择提供线索。
  • 在前两个阶段的基础上,形成数字化运营闭环体系。基于业务场景和用户画像制定营销活动策略,运用标签体系进行目标人群圈选与精准触达。同时对活动过程实现全链路数据监测追踪,实时通过数据反馈调整活动,最终分析活动整体从曝光到消费的效果转化,进而指导后续活动策略和人群运营策略的优化。

数字化活动运营流程设计

在近期的一次拉新活动中,通过TalkingData外部数据标签和影儿时尚集团会员数据进行打通,对影儿时尚集团用户的画像洞察发现客户群中有大量忙于工作的妈妈人群,同时根据线上的行为特征发现和某专业洗护品牌具有强关联性。

因此针对性设计了“减轻妈妈家务负担”活动主题,选择该专业洗护品牌作为异业合作方,最终实现单次推广公众号增粉4万多人、获新4千多人、ROI高达30倍的优异成绩。更为重要的是通过此次活动跑通了从业务场景出发、圈取人群投放、过程监测与最终效果分析的数据化运营路径,赋能影儿集团数字化运营能力,是对影儿时尚集团与TalkingData合作构建数字化运营闭环体系价值的一次最佳验证。

关于影儿时尚集团

影儿时尚集团自1996年成立以来,先后创建了YINER音儿、INSUN恩裳、PSALTER诗篇、Song of Song歌中歌、OBBLIGATO奥丽嘉朵和XII BASKET 十二篮六大品牌,成为一家集投资、研发、创意、营销、服务于一体、以时尚行业为主导、跨行业发展的大型多元化企业。

目前,影儿时尚集团拥有深圳龙华、观澜和上海松江三大产业园,在全国拥有14大区域销售分公司,1500多家门店和数百万会员,领先同侪,被业内专家认为是“中国服装业国际化的开始,将带动深圳乃至全国女装的国际化发展。”

AI丨看大神是如何总结2018和预测2019的

在之前的推送中,我们看到了很多专家对AI、数据科学与分析的2018年总结以及2019年趋势预测,今天我们再来看看2018年AI、机器学习的技术概述及2019年发展趋势,本文是TalkingData University翻译自Medium上的一篇文章,原文作者Pranav Dar,点击【阅读原文】可查看英文原文。

注:由于文章过长,将分为上下两次进行推送,上半部分主要的内容为:自然语言处理(NLP)、计算机视觉的相关内容。

导论

过去几年对AI爱好者和机器学习从业者来说像梦一样。 这些技术已经从利基发展成为了主流,并且今天正在影响着数百万人的生活。各国现在都有专门的AI部门和预算,确保自己一直与处于这场比赛之中。

对数据科学专业人员来说也是如此。 几年前,你会很自然地知道一些新的工具和技术。 但现在不是了! 在这个领域发生了很多事情,有太多都需要加快脚步跟上,甚至有时令人难以置信。

这就是为什么我想从数据科学从业者的角度,退一步看AI一些关键领域的发展。这些突破是什么? 2018年发生了什么,2019年会发生什么?

P.S. 与任何预测一样,这些都是我的结论。这些是我试图连接起来的点。 如果您有不同的观点 ,可以在本文下的留言区域畅所欲言。

我们将在本文中覆盖的领域:

  • 自然语言处理(NLP)
  • 计算机视觉
  • 工具和库
  • 强化学习
  • 更好的AI – 伦理AI

自然语言处理(NLP)

让机器解析单词和句子似乎是在做梦。语言在方方面面有太多的细微差别,甚至人类有时都难以掌握,但2018年确实是NLP的分水岭。

我们看到了一个又一个显著的突破–

ULMFiT,ELMo,OpenAI的Transformer和Google的BERT等等。迁移学习(能够将预训练模型应用于数据的艺术)成功应用于NLP任务,为无限的潜在应用打开了大门。近几次我们与Sebastian Ruder的播客进一步巩固了我们对他的领域继续走下去的信念。(提醒一下,这是所有NLP爱好者必读的播客)。

ULMFiT

ULMFiT是由Sebastian Ruder和fast.ai的Jeremy Howard设计、今年第一个启动NLP迁移学习的框架。对于没有经验的人来说,它代表通用语言模型微调。 Jeremy和Sebastian真的在ULMFiT中做到了“通用”这个词—该框架几乎可以应用于任何NLP任务!

谈到ULMFiT中最棒的部分以及我们即将看到什么样的后续框架?你不需要从头开始训练模型!这些研究人员为您完成了困难的部分,您可以学习并将其应用到您自己的项目中。ULMFiT是六个文本分类任务中表现最优的。

您可以阅读Prateek Joshi所作的优秀教程,关于如何开始使用ULMFiT解决任何文本分类问题。

ELMo

想猜猜ELMo代表什么?它是语言模型嵌入的简称。很有创意吧?除了名字与著名的芝麻街角色相似,ELMo一发布就引起了机器学习社区的注意。

ELMo使用语言模型来获取每个单词的嵌入,同时还会考虑单词适用的句子或段落上下文。语境是NLP一个非常重要的方面,但大多数人以前都没有掌握。ELMo使用双向LSTM来创建嵌入。如果这听起来很拗口也不用担心 – 请查看这篇文章(原文有链接),以便非常简单地了解LSTM是什么以及它们是如何工作的。

与ULMFiT一样,ELMo显著提高了众多NLP任务的性能,如情感分析和问答。

Google’s BERT

相当多的专家声称BERT的发布标志着NLP的新时代。继ULMFiT和ELMo之后,BERT凭借其性能真正击败了竞争对手。正如原论文所述,“BERT在概念上简单,同时有具备强大的经验”。

BERT在11个(是的,11个!)NLP任务中获得了最优结果。 来看一下在SQuAD基准测试中他们的结果:

SQuAD v1.1排行榜(2018年10月8日)Test EMTest F11st Place

Ensemble – BERT87.493.22nd Place Ensemble – nlnet86.091.71st Place Single Model – BERT85.191.82nd Place Single Model – nlnet83.590.1

有兴趣入门吗? 您可以使用PyTorch实现,或使用Google自己的TensorFlow代码尝试在您自己的计算机上复现。

我很确定你想知道BERT在这一点上代表什么。它是Transformer的双向编码器表示。

Facebook的PyText

Facebook怎么可能退出竞争呢?他们开源了他们自己的深度学习NLP框架PyText。 它于12月23日这一周发布,所以我还在试用它,但从目前早期的评论看是非常有希望的。根据Facebook发表的研究,PyText使会话模型的准确性提高了10%,并缩短了训练时间。

PyText实际上落后于Facebook其他一些产品,如FBMessenger。 因此,研究它来为您自己的投资增加一些现实世界的价值(除了您将获得的宝贵知识)。

您可以通过从此GitHub下载代码来自行尝试(原文有链接)。

Google Duplex

如果你还没有听说过Google Duplex,你都干嘛去了?!Sundar Pichai用一个demo十分精彩的展示了它,从那以后它一直是头条新闻:

由于这是Google的产品,因此他们很有可能开源背后的代码。它是展出时可用的一个相当棒的音频处理应用程序。当然,它引发了许多道德和隐私问题,但这是本文后面要讨论的。就目前而言,我们只要陶醉于近年来我们与机器学习的关系就可以了。

2019年NLP的趋势

谁还能比Sebastian Ruder本人提出NLP 2019年更好的发展方向?以下是他的想法:

  • 预训练的语言模型嵌入将无处不在,最先进的模型不使用它们是几乎不可能的
  • 我们将看到可以编码专门信息的预训练,这些信息是对语言模型嵌入的补充。我们将能够根据任务的要求组合不同类型的预训练
  • 我们将看到多语言应用程序和跨语言模型上的更多工作。特别是在跨语言词嵌入的基础上,我们将看到深度预训练跨语言表示的出现。

计算机视觉

这是现在深度学习中最受欢迎的领域。我觉得我们已经在很大程度上获得了计算机视觉低处的果实,并且已经在某种程度上到达了精炼阶段。无论是图像还是视频,我们都看到了大量的框架和库,这使得计算机视觉任务变得轻而易举。

我们今年在Analytics Vidhya花了很多时间研究这些概念的平民化。可以看看我们的计算机视觉特定文章(原文有链接),涵盖从视频与图像中的对象检测到预训练模型列表等主题,帮助您开始深度学习之旅。

如果您对这个美妙的领域感到好奇(实际上它很快将成为业内最热门的工作之一),那么请继续学习我们的“使用深度学习的计算机视觉”课程开始您的旅程。

BigGANs 的发布

Ian Goodfellow在2014年设计了GANs,这个概念催生了多种多样的应用程序。年复一年,我们看到原始概念正在调整以适应实际用例。但直到今年,有一件事情仍然相当一致:机器生成的图像相当容易被认出。在框架中总会存在一些不一致,这使得区别非常明显。

但最近几个月,这个区别已开始模糊。随着BigGANs的创建,这种区别可以永久消除。以下是使用此方法生成的图像:

除非你拿显微镜看,否则你将无法判断这些图是否有问题。担心还是兴奋?我会把这个问题留给你,但毫无疑问GANs正在改变我们对数字图像(和视频)的感知方式。

对于这方面的数据科学家来说,这些模型首先在ImageNet数据集上进行训练,接下来JFT-300M数据集可以展示模型的良好迁移。我还要引导您进入GANs页面 – 一种可视化和理解GAN的非常酷的方式。

Fast.ai的模型在ImageNet上训练仅用18分钟

这是一个非常酷的进展。人们普遍认为,需要大量数据以及很重的计算资源才能执行合适的深度学习任务。这包括在ImageNet数据集上从头开始训练模型。我理解这种看法—我们大多数人都认为如此,直到Fast.ai的出现证明我们都错了。

他们的模型在令人惊讶的18分钟时间内,得到了93%的准确率。他们在博客中详细介绍了使用的硬件–16个公有AWS云实例,每个实例都有8个NVIDIA V100 GPU。他们使用fastai和PyTorch库构建了算法。

所有加在一起的总成本仅为40美元!Jeremy在这里更详细地描述了他们的方法,包括技术。

NVIDIA的vid2vid技术

在过去的4-5年里,图像处理已经实现了跨越式发展,但视频呢?事实证明,从静态框架转换为动态框架的方法比大多数人想象的要困难一些。 你能拍摄视频序列并预测下一帧会发生什么吗?这些问题之前已被探索过,但已发表的研究充其量还是模糊不清。

NVIDIA在今年早些时候决定开源他们的方法,并得到了广泛的赞誉。他们vid2vid方法的目标是从给定的输入视频学习映射函数,以产生输出视频,这个输出视频以令人难以置信的精度描绘了输入视频的内容。

您可以在GitHub上找到他们的PyTorch实现。

2019年计算机视觉趋势预测

就像我之前提到的那样,我们可能会在2019年看到改动而不是创新。尤其在这些领域–自动驾驶汽车,面部识别算法,虚拟现实等。欢迎提出不同意见—我很想知道明年会诞生什么目前还没有的东西。

无人机目前还在等待政府和政策的批准,最终可能在美国获得批准(印度要远远落后)。就个人而言,我希望看到很多研究在实际场景中实施。像CVPR和ICML这样的会议描绘了这个领域的最新成果,但这些项目有多接近现实中的使用呢?

视觉问答和视觉对话系统可能很快迎来期待已久的首次亮相。这些系统缺乏概括的能力,但我们期望可以很快看到一种综合的多模式方法。

自我监督学习今年来到了一线。我可以打赌明年它将用于更多的研究。这是一个非常酷的学习线–标签直接由我们输入的数据确定,而不是浪费时间手动标记图像。

翻译 | 数据科学中各岗位的技能点应该怎么点?

本文是TalkingData University翻译自George Liu发表在towardsdatascience的一篇文章。

在之前的文章中,George给出了不同角色数据人才能力画像,本文他将通过分析Indeed网站的招聘信息进一步分析得到的结果。

如果你是数据科学方面的求职者,那么肯定希望在简历当中添加某些技能或者特别的东西,让 HR 的眼前一亮,如果您想进入这个领域,您可能想破脑袋想知道学习哪些技能才能成为更有吸引力的候选人。

来吧,我有你想要的答案。

首先,我们来看看不同岗位的技能要求。

R 与 Python 之争已经结束,Python 现在是主导者

曾经有人争论过到底Python和R谁才是数据科学的首选语言。显然,市场需求告诉我们 Python 现在是领导者。同样值得注意的是,R 甚至比 SAS 更少提到。因此,如果您正在考虑进入数据科学领域,请考虑将您的学习重点放在 Python 上。 SQL 作为数据库的语言(也可能是数据!),是数据科学家第二重要的语言。由于数据科学家职业的广泛性,其他语言也扮演着重要角色。

总结:数据科学家的主要语言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。

机器学习工程师所需的语言更加多样化

作为机器学习的实际语言,Python 当选机器学习工程师的首选语言并不令人惊讶。而从头开始实现算法,并在大数据环境中部署 ML 模型,使得 C ++ 和 Scala等相关语言也很重要。总的来说,与其他两个角色相比,机器学习工程师对编程语言的需求似乎更加分散。

总结:机器学习工程师的主要语言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。

如果你想成为一名数据工程师,SQL绝对是必备的

数据工程师始终在处理数据库,SQL是数据库语言,所以毫无疑问,SQL是首选语言。 Python很重要,但还是败给了Scala和Java,因为这些语言可以帮助数据工程师处理大数据。

总结:数据工程师的主要语言是:SQL,Scala,Java,Python和Lua。

Scala是数据科学中第二重要的语言(而不是R)

当我们查看不同的角色的语言首选时发现了有趣的事,Scala始终处于第二位或第三位。 所以我们可以说数据科学中的排名前三的语言是 Python,SQL 和 Scala。 如果您正在考虑学习一门新语言,请考虑使用Scala!

对除数据工程师之外的角色,Spark 是首选大数据技能

仅对于数据工程师而言,需要 Hadoop 的比 Spark 更多,但总的来说,Spark 绝对是首先应该学习的大数据框架。 Cassandra 对工程师而言比科学家更重要,而 Storm 似乎只与数据工程师有关。

总结:数据科学的首选大数据技术是:Spark,Hadoop,Kafka,Hive。

TensorFlow 是深度学习的王者

数据工程师职位发布中几乎没有提到深度学习框架,因此该角色似乎不需要这项技能。 提及DL框架最多的是机器学习工程师,表明ML工程师确实大量处理机器学习建模,而不仅仅是模型部署。

此外,TensorFlow 在深度学习领域绝对占据主导地位。尽管 Keras 作为高级深度学习框架在数据科学家中非常受欢迎,但它几乎与机器学习工程师角色无关,说明可能ML从业者大多使用较低级别的框架,如 TensorFlow。

总结:数据科学中最重要的深度学习框架是:TensorFlow,Torch,Caffee和MXNet。

AWS 广泛主导

计算机视觉是机器学习最大的需求来源

对于一般的数据科学家来说,自然语言处理是机器学习最大的应用领域,其次是计算机视觉,语音识别,欺诈检测和推荐系统。有趣的是,对于机器学习工程师来说,需求最大的是计算机视觉,而第二名自然语言处理远在后面。另一方面,数据工程师再次成为聚焦专家–这些ML应用领域中没有一个与他们相关。

洞察力 – 如果您想成为数据科学家,您可以根据想要进入的领域构建各种类型的项目,以展示您的专业知识,但对于机器学习工程师来说,计算机视觉是最佳选择!

对可视化来说,Tableau 是必须的

可视化工具主要为数据科学家所需,很少在数据工程师和机器学习工程师的职位中提到。但是,Tableau 是所有角色的首选。对于数据科学家来说,Shiny,Matplotlib,ggplot和Seaborn似乎同样重要。

Git 对每个人都很重要,而Docker仅有工程师需要

接下来,我们使用词云来探索每个角色最常用的关键词,并结合相应的技能为所有数据科学角色构建理想的画像!

数据科学家更多的与机器学习相关,而不是业务或分析

Data Scientist一直被视为需要统计,分析,机器学习和商业知识的全方位知识。 似乎确实如此,或者至少,数据科学家仍被广泛需要。 然而,现在看来,数据科学家们更多与机器学习相关,而不是其他任何事务。

其他主要要求包括:业务,管理,通信,研究,开发,分析,产品,技术,统计,算法,模型,客户/客户和计算机科学。

机器学习工程师是关于研究,系统设计和构建

与一般的数据科学家相比,机器学习工程师肯定似乎有一个更聚焦的技术栈,包括研究,设计和工程。显然,解决方案,产品,软件和系统是主要的。与此同时,有研究,算法,ai,深度学习和计算机视觉。有趣的是,商业,管理,客户和沟通等术语似乎也很重要。这可以在本项目的迭代中进一步研究。另一方面,数据管道和平台也脱颖而出,证实了机器学习工程师在构建数据管道以部署ML系统的责任。

数据工程师是真正的“专”家

与机器学习工程师相比,数据工程师拥有更加聚焦的技术栈。显然他们聚焦的是通过设计和开发管道来支持产品,系统和解决方案。首要要求包括技术技能,数据库,构建,测试,环境和质量。机器学习也很重要,可能是因为管道主要用于支持ML模型部署数据需求。

好了!我希望这个项目可以帮助您了解雇主正在寻找什么样的人,最重要的是帮助您做出如何定制简历和学习哪些技术的明智决策!

咨询专栏丨使用现金贷的都是哪些人?他们有什么特征?

2017年年底《关于规范整顿“现金贷”业务的通知》等一系列监管文件的出台,对现金贷业务模式做出了严格的规定,并且确定综合年化利率不得超过36%。虽然监管在思路上对现金贷的存在给予了一定的肯定,但是在监管政策上,又变得更加严厉。

在如此严格的监管情况下,根据 TalkingData 统计,2018年现金贷人群的借款类 App 月均使用频次为15.4次,月均使用时长为14.8分钟,低于银行信用卡类 App 的平均使用情况。所以,强监管、低频次、产品期限短、额度小等特点要求现金贷企业低成本高流量的有效获客才能更好的盈利。因此,了解现金贷人群画像,洞察现金贷人群的特征,对企业有效获客至关重要。

本报告抽样选取近三个月在典型现金贷App(例如:宜人贷借款、拍拍贷借款、闪电贷等)上活跃过的人群作为分析对象,将近三个月的普通移动互联网用户作为对照组进行对比分析。

总体上,现金贷人群主要来自二三线城市,且男性居多。一线城市现金贷人群多来自二三线,且流动性大。日常生活中偏好网购、娱乐至上。虽然消费能力一般,但消费需求较高。餐饮、生活服务以及休闲娱乐为现金贷人群的主要消费场景。

一、现金贷人群基本画像

1、现金贷人群的年龄结构整体偏年轻,且男性居多

约58%的现金贷人群集中在26至35岁,35岁以下人群占比81%,现金贷人群年龄整体偏年轻,且男性占比更多。

2、主要分布在广东、江苏、浙江等沿海地区,且二三线城市居多

现金贷人群主要分布在广东、江苏、浙江等沿海地区,人群多集中在二三线城市。二线城市占比约为26%,主要分布在重庆、成都、天津、西安等城市。而三线城市现金贷人群占比约为65%,例如东莞、泉州、佛山等。

3、多使用OPPO、vivo、小米等高性价比机型,移动和电信更有市场优势

现金贷人群整体消费能力一般,超过一半的现金贷人群手机价位在2000至3999元的区间,接近40%的现金贷人群手机价格低于2000元,且OPPO、vivo、小米等高性价比机型占比较大。对比三大运营商的市场份额,中国移动依然拥有最大的客户基础,而中国电信在现金贷人群中较受欢迎。

4、餐饮、生活服务以及休闲娱乐为现金贷人群的主要消费场景,高性价比的大众品牌更受欢迎

现金贷人群的日常消费需求高于移动互联网用户,尤其是餐饮、生活服务以及休闲娱乐等消费场景。现金贷人群的消费习惯也符合大众消费习惯,具体的消费品类集中在食品烟酒、零售卖场、生活用品和服务。而对健康生活的追求和精神文化的享受也渐渐成为人们新的主流消费诉求。

二、现金贷人群深入洞察

1、偏好网购、娱乐至上和经常出行是现金贷人群的主要特征

现金贷人群整体偏年轻,对移动互联网较为依赖。偏好网购、娱乐至上,出行需求也相对较高是主要特征。相比于普通的移动互联网用户,现金贷人群更喜欢影音娱乐和网络购物类App,人均多使用1.3个影音类App和0.6个网购类App。

2、现金贷人群对价格更敏感,网络购物重视搜寻信息和比价

相比于大多数移动互联网网民,现金贷人群对价格更敏感,重视搜寻商品信息和价格对比。网购更偏好网上商城、团购和比价类应用。现金贷人群TOP10覆盖率的网购应用中,淘宝、美团最受欢迎,覆盖率达到了50%以上,但拼多多、京东的用户活跃率更高。值得注意的是,现金贷人群也有一定的二手交易需求,如闲鱼和转转等二手交易平台,用户覆盖率略低但用户活跃率较高。

3、现金贷人群经常使用音乐、直播和短视频等移动App,而线下更常去网吧、足浴、茶馆等休闲娱乐场所

影音类娱乐内容例如听音乐、看直播、刷短视频已成为现金贷人群在空闲时间主要的消遣方式。爱奇艺、腾讯视频、抖音短视频、火山直播等平台颇受欢迎。咖啡厅、网吧、KTV则是现金贷人群主要的线下休闲娱乐场所。通过和移动互联网用户的对比发现,网吧、茶馆、足浴等消费场所现金贷人群的TGI指数更高。

4、现金贷人群有明显的游戏偏好,手游的安装和打开频次高于平均水平

现金贷人群比普通网民有更明显的游戏偏好,除了线下经常去网吧,约78%的现金贷人群有安装过游戏应用,其中36%的现金贷人群安装过3款以上手机游戏,并且超30%的人连续7天有游戏行为。手机游戏的安装和打开频次均高于普通移动互联网用户。

5、一线城市现金贷人群,主要来自二三线城市,且流动性高

现金贷人群的城市迁移度较高导致出行需求相应较高。广州、北京、深圳、上海等一线城市现金贷人群流动率高于80%,其中广州和深圳的现金贷人群多来自其周边的二三线城市,而北京和上海的现金贷人群来源则更加分散。

6、现金贷人群,对新闻资讯较为敏感

至少68%的现金贷人群均有安装新闻资讯类App,且受政策新规和负面新闻影响较大。从2017年12月发布《关于规范整顿“现金贷”业务的通知》之后,现金贷类App月均活跃率持续下跌,至2018年2月才逐步回升。同时,科技、娱乐、财经类资讯也是现金贷人群日常比较关注的领域。

三、银行系和互联网系现金贷客群对比

目前市场上主要有五大类现金贷主体,分别是商业银行、消费金融公司、互联网巨头、助贷服务方以及P2P公司。根据其业务模式、用户来源、产品类别、资金成本等特征可以将他们划分为银行系和互联网系两大类。银行系现金贷主体对风险容忍程度较低,采用传统征信模式,且资金成本较低。而互联网系现金贷主体对风险容忍程度高,多采用线上多数据风控,且资金成本较高。不同类别的现金贷主体可能存在对现金贷人群的逆向选择,进而导致人群特征产生差异。

经过两类现金贷人群的对比分析发现,银行系现金贷人群中有车一族更多,且消费能力更强。但总体来说,二者行为偏好差别不大,一方面说明两种类别的客群重复度较高,另一方面说明部分用户可能存在多头借贷的现象。

四、获客建议和策略

企业通过大数据了解目标客群的用户画像,洞察用户的媒介偏好(尤其是移动端App偏好),就能挑选合适的媒介渠道进行广告投放,降低成本,提升获客效果。根据艾瑞咨询的相关报告,基于用户画像的广告投放渠道筛选有三大原则:

差异化选择:

选择TGI较高的App,即在目标人群中安装率、使用率很高,但在普通人群中较低,在此类App上投放针对目标客户的广告可能会有较高的性价比。

垂直媒介筛选:

一般来说,头部App(微信、淘宝、QQ等)安装率和活跃率都较高,属于优质广告位,但成本也较高。安装率较高,但活跃率不高的App,一般偏工具属性,用户用完即走,转化率不会太高。安装率不高,但活跃率较高的App,一般属于垂直领域,用户群相对小一些,但更加聚焦,选择人群相关度较高的垂直领域,预计会收到比较好的效果。

潜力型媒介筛选:

可以从目标群体偏好的App列表中,筛选近三个月时间增长较快的腰部App。此类App当前体量较小,广告投放费用尚低,如果提前以较低的价格签订一段时间的广告合约,可能会在未来收到超出当前预期的收获。

根据TalkingData的应用统计数据发现,针对现金贷客群来说,覆盖率和活跃率更高的安卓应用分发市场第一梯队是OPPO软件商店和腾讯应用宝。其次是360手机助手、百度手机助手、vivo应用商店和PP助手。

现金贷客群在网络购物、影音娱乐、出行服务等方面TGI较高,因此更有效的差异化媒介为:手机淘宝、爱奇艺、腾讯视频、高德地图。用户覆盖率不高但相对活跃的垂直媒介有:OPPO音乐、58同城、王者荣耀、京东金融和汽车之家。根据TalkingData数据中心计算推荐,更符合现金贷用户特征的广告投放渠道为:新数DSP、BiddingX、品友互动和今日头条。

TalkingData通过对现金贷用户群体的深度洞察,从第三方数据智能服务商的角度客观的展示了现金贷人群的基本特征和行为偏好。希望报告中所提及的用户群体的地域分布、人群画像、消费偏好和行为习惯,能帮助企业更好的了解现金贷客户的特征,通过精准的获客渠道选择以及媒介合作策略,降低获客成本,提高获客效率。

注:本文章中出现的第三方商标及图标,仅为替代文字表达用以辅助说明本报告的内容,而非商标性使用,商标权归原权利人所有。

凛冬将至?不,是个性化新消费时代的来临

近日,TalkingData 副总裁高铎在“2018实现可持续发展目标中国企业峰会”上发布了主题为《新消费时代开启,消费升级显活力》的行业报告,并从新消费在国内的兴起、新消费的国民理念以及新消费在生活各领域的表现这三大方面,分享了对新消费的最新行业洞察与观点。

一、新消费在国内的兴起

1、新消费兴起的前提和核心

从改革开放基本国策确定和实行以来,我国开始全面深化改革,不断释放发展动力,经济社会发生了翻天覆地的变化,居民消费结构得以不断改善、升级,以消费者为核心,满足其美好生活需求的个性化升级的新消费时代正在来临。

现在所谓的消费降级概念其实是由于以一二线城市的角度看待问题,而对于五六线城市和乡镇的消费者来说,现在能够买到之前买不到的相应产品,体验的更多是消费升级。所以准确来说,应该是很多线上业务开始下沉,走向消费分级,或者说是“个性化消费升级”,以满足消费者愈加多样化的消费需求。

中国经济发展处于健康稳定态势,第三产业继续对经济增长发挥主导作用;同时,中国社会消费品零售总额保持平稳较快增长,国民消费活力吸引各行各业拓展商机。

而通过近30年的大力发展,充分调动与发挥了人在城镇化的主动性和创造性,促使中国城镇化率提升2.3倍、中国城镇居民人均可支配收入水平提升39.7倍,这两个大环境支撑了不同时代的消费升级。

消费结构、消费需求、消费理念、消费渠道是新消费以人为本的四大核心。新消费是一个持续发展演变的过程,在以消费者为基础的准则上,不断满足其需求,利用时代新技术或新模式重构“人-货-场”的关系,进而带动商品创造和服务升级,最终实现对消费结构、消费需求、消费理念和消费渠道的深刻变革。

2、居民需求层次升级,数字化提质增效

通过上图可以看到,虽然生活刚需仍占最大比例,但与前两年相比,医疗保健、教育、文化、娱乐、交通类的消费多了起来。

数字化技术加速落地,并广泛应用于生产、物流、售卖、展示等社会消费品产业链各个环节,打通各环节的信息流通,增加各个环节的协同效应,提升整个消费链条的效率和消费者的消费体验。正是技术的进步,支撑了前端消费场景的变化。

说到数字化,就不得不提移动智能终端的发展。截至2018第二季度,我国移动智能终端规模已经突破15亿台,移动互联网对人民生活充分渗透。根据TalkingData数据统计,国民在移动智能终端的日均活跃时长达3.5小时,日均打开19.8款移动应用。移动智能设备已在社会生活中占据重要位置,并改变了人们的生活方式。

也正是依托移动互联网、大数据和人工智能等新兴技术,传统企业开始转变发展理念,整合线上、线下渠道,丰富和利用数据资产,实现对消费者的精准触达和友好服务,线上线下深度融合的新型消费模式应运而生。

3、三大群体支撑新消费时代

新消费群体有三类:相比之下,70后与80后群体更注重品质;90后群体更追求个性、独立和新潮;同时也不应忽视更关注健康的60后消费群体,他们的占比达到了16%。

不同群体在消费渠道上也有着比较明显的不同,譬如很多90后通过“网红”来了解和购买商品,70后与80后倾向于通过电商平台购买,而60后很多都喜欢电视购物等。

因此,面对不同的消费群体,意味着品牌商的营销也要采用不一样的策略、不一样的渠道、不一样的触达方式。

二、新消费国民理念

城镇化率、居民收入、数字化技术落地和移动互联网飞速发展,推动着国民消费理念的逐步转变。如今,新消费理念可分为5大方向,分别是:

  • 追求品质化生活:在中国经济发展的新常态阶段下,人们的消费需求开始从模仿型排浪式消费向多样化理性消费转变,无论是刚需、非刚需,还是基础生活、品质生活,整个消费主体越来越重视对美好和品质生活的追求。
  • 追求互动体验:技术演进催生出日新月异的消费互动体验,例如VR、AR、无人驾驶/便利店、智能机器人、线下体验店等技术或商业形态,通过虚拟、跨界、人工智能化的体验等带来更为丰富、立体和享受的空间及氛围。
  • 追求个性化定制:由于受到审美喜好、教育文化、身份场合、生活习惯等影响,以及人们越来越注重个人价值和自我内涵的体现,潮牌、轻奢、设计师品牌、DIY、私人定制等开始满足了不同人群的个性化消费需求。
  • 追求便捷高效:便捷和高效是每个时代的一致追求,供给侧和需求侧同样需要便捷高效的有力支撑,高铁、共享单车、外卖、移动应用、手机支付、智能家居等的发展,创造了更加高效、便捷的消费和生活环境。
  • 追求绿色健康:绿色健康正在成为人们的一种生活方式,从低碳出行,到有机食品,再到运动健身,无不折射出人们的绿色环保、健康养生的生活志趣,亦将赋予此种生活方式以新的意义。

三、新消费在五大生活领域上的表现

国民生活,永远离不开衣、食、住、行、娱这五大领域,那么新消费在这五大生活领域中的表现如何?人们的消费理念有哪些转变和趋势呢?

衣:

通过上图可以看到,线上时尚品牌消费用户增长率和购买次数正不断增加。面对线上消费快速发展和居民对网购习惯养成,时尚品牌不仅巩固线下市场,而且拓展线上渠道,并通过触网洞悉市场潮流、把握消费者心理和商品需求。

食:

“互联网+”与餐饮业正在加速融合,形成对餐饮业各个方面全面渗透和拓展,目前四分之一的移动互联网用户使用餐饮类移动应用,近6成餐饮结帐方式来自移动支付,移动互联网发展红利导致餐饮业的线上拓客、用户服务以及商业运营等更加精准高效透明。

住:

近年商旅住宿业态不断创新,迎合用户家庭感、体验感、个性化以及主题特色等需求的住宿资源、平台和休闲旅游场所逐年增加。而租房市场主导因素不再是价格为王,用户开始综合考虑交通便利度、社区环境、周边配套以及房屋品质等细节,追求品质生活环境。

行:

出行领域与互联网的融合力度不断增加,各客运市场通过商业、技术创新提升运作效率、服务品质,探索行业发展新商机。社会经济发展推动了出行方式改善,移动化、智能化、共享化等则共同提升出行体验。

娱:

现今,消费者在物质生活方面已得到极大满足,开始更多关注精神方面多元需求,吸引了游戏、影视、传媒、互联网等企业通过核心IP内容拓展其在核心、优质、长尾等流量层的行业布局。

旅游市场方面,一方面定制游、品质游成为旅游消费新热点,另一方面旅游消费者越来越看重旅游的文化体验、精神熏陶。

四、总结

综上所述,中国居民消费结构正在加速改善、升级,整个社会开始进入以消费者为核心的消费升级时代,消费理念呈现品质生活、互动体验、个性定制、便捷高效和绿色健康,并反映在衣、食、行、住、娱等领域。

TalkingData 区域性金融智能营销研讨会在珠海举办

区域性金融企业正在面临着收入增长缓慢、运营成本压力增加的挑战。TalkingData 认为,区域性金融企业可以通过数字化运营和智能化营销建设,降低金融企业的运营成本,提升营销效率,增加业务收入,为客户提供便捷的金融服务。

近日,TalkingData 在珠海举办区域性金融智能营销研讨会,本次研讨会仅面向区域性金融行业客户。共计40多家区域性金融企业的客户参加了本次研讨会,参会人员覆盖区域性金融企业副总裁、网络金融部总经理、互联网金融总经理、电子银行总经理、数据分析和运营总经理、市场营销总经理等金融行业高级管理人员和运营人员。

会议上,金融行业的业务专家、研究学者以及 TalkingData 产品咨询团队,从数据的场景化应用、数据中台的建设思路、智能营销平台的商业价值、数字化运营成功案例等方面,深入探讨了经典案例和实战经验。

TalkingData合伙人兼执行副总裁林逸飞

长江证券、重庆银行的专家分别介绍了自身的数字化营销实践经验,以及他们如何在服务客户方面定位自己,如何走差异化发展之路,实现基于数据驱动的增长。中国银行协会行业发展研究委员会副主任、中国人民大学重阳金融研究院副院长董希淼,在演讲中介绍了中小银行零售业务的困境和对策。

他指出,在互联网流量巨头、金融科技公司、领先的股份制商业银行、大型国有银行的巨大资源投入面前,区域性金融机构需要了解如何利用金融科技代替大量人员投入和大量资本投入,实现高效率、低成本的业务发展。

TalkingData 合伙人兼执行副总裁林逸飞指出,在线上获客成本日益增加的情况下,企业需要盘活流量,提升流量变现能力,从数据中萃取商业价值。在未来两年,随着流量对企业和系统的要求越来越高,中台的优势将真正的发挥出来。具体来说,中台可以对接多种流量,帮助企业在营销闭环里将数据简单化,让各种工具在其上各司其职,真正的打通流量运营。此外,中台还可以帮助企业快速上线算法、模型,并通过客户的真实反应验证、训练模型,实现营销的自动化和快速化。

TalkingData 认为,中台不仅仅是一个平台、一个工具,而是一套正规而立体的想法。TalkingData 对数据中台的定义是基于数据智能应用探索商业价值的平台,它需要具有数据管理、数据工程和数据科学的能力。

此次会议为区域性金融机构提供了一个开放、分享的平台,区域性银行及证券企业的科技部门与网络金融部门的相关负责人出席了本次会议,并在下午的两个主题研讨会上进行了热烈的交流。

此次能够邀请到这么多区域性金融机构的企业代表参与研讨,TalkingData 作为主办方感到非常荣幸。TalkingData 将继续借助以数据智能平台 SmartDP(TalkingData 数据中台)为核心的数据智能应用生态为金融企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

TalkingData刘翔:从数据资产到价值量化,新零售转型之路应该这么走

近日,TalkingData 咨询部总经理刘翔出席了在上海康师傅通路创新中心举办的“前瞻创新 携手同行”康师傅开放日活动,为康师傅高层及核心员工分享了 TalkingData 以全闭环数字链路和数据中台策略大脑助力零售行业数字化转型的思路、经验与案例。

康师傅 通路创新中心

十年前,我们还在谈大数据的 4V 概念;而十年后的今天,大数据早已超越技术范畴,它已经成为商业模式创新的重要驱动力,并已成为很多领先企业的业务战略重点之一。大数据的应用落地快速深化,逐步走入数据智能时代。越来越多的企业开始关注大数据能够如何驱动商业模式创新,能够带来哪些新的利润点,能够创造怎样可量化的价值。

TalkingData咨询部总经理 刘翔

数据赋能下的零售业未来将往怎样的方向发展?刘翔从客户时间、近场触点、生态场景三大方面进行了总结。

  • 以往行业更关注流量,无论是线上流量还是线下流量。而刘翔认为,流量背后的本质是客户,而争夺客户的本质其实是占据客户的时间,如何引导并创造出更多的高频场景是很多客户非常关注的领域。
  • 近场触点上,从覆盖3-5公里商圈的超市和购物中心,到覆盖300米-500米的便利业态,到一步之遥的无人购物货架,到电梯的大屏,甚至到家庭客厅的智能电视,覆盖渠道也将越来越多并进行打通连接,实现立体式的触达。
  • 生态场景方面将走向高度融合,与客户的交互不再区分单纯的线上与线下。用数据去描摹人群、用数据去描述货品、用数据去还原场景,进而通过面向不同场景的数据模型产品可以重构人、货、场三者之间的关系,最终实现人、货、场的数据化重构。

现在越来越多企业把数据作为一种资产来看待。刘翔认为,对数据资产的管理要像理财一样,有明确的策略,去考虑如何多元化配置、如何持续增值。大数据时代,很多企业遇到的问题不是数据太少,而是数据太多太杂,缺乏有效管理、运营并产生价值。

而 TalkingData 在全闭环数字链路和数据中台策略大脑的基础上,基于为零售企业服务的丰富经验,总结出从数据到数据资产管理、从数据资产到价值量化、通过数据资产运营实现业务价值、通过数据闭环验证实现价值量化的解决方案,帮助企业通过数据中台打通各项内外部数据,对数据进行处理和建模,形成数据应用来供业务部门使用,将数据转化为可量化的商业价值。

刘翔通过几个典型案例介绍了这一解决方案的具体实践。其中,在与某餐饮企业的合作中,TalkingData 基于数据中台,结合该企业自有的产品物料、优惠活动、实时订单、历史销售等数据以及节假日等数据,形成销售预测模型,实现提前0.5小时预测该企业数千家门店细化到每个 SKU 单品的销量,预测准确率提升超过15%,同时也显著提高了门店人员排班效率。

而在与某知名服饰集团的合作中,TalkingData 帮助该企业整体搭建了数据资产管理平台,基于数字化运营框架,形成营销数据闭环,在今年夏季的营销活动中,圈选出90余个不同的人群,并和数十种权益、多渠道实现最优组合,进行精准营销触达,实现了高达94倍的 ROI 效果。

“数据是驱动而不是参考,试验不是发展策略之一,试验就是策略本身。”刘翔以亚马逊 CEO 贝佐斯的这句话作为此次分享的结语。未来,数据不只是决策的参考,而将成为全面的驱动力,驱动企业整体数字化的转型。

崔晓波出席国际金融论坛全球年会,总结金融科技三大发展阶段

近日,国际金融论坛(IFF)第15届全球年会在广州开幕。年会以“新全球化:未来之路——走向共同发展的新型经济全球化”为主题,邀请来自全球的200多位嘉宾,围绕新全球化时代未来发展方向、世界和中国面临的挑战与机遇、数字经济与金融科技等话题进行了深入探讨。

TalkingData创始人兼首席执行官 崔晓波

在本届IFF年会的环球金融科技峰会中,TalkingData 创始人兼首席执行官崔晓波先生受邀参与圆桌论坛,与意大利前总理达莱马、中国人民银行金融市场司副处长唐磊、中国人民大学金融科技与区块链大数据研究所联席所长李志杰、微软(中国)首席技术官韦青、蚂蚁金服数字银行资深架构师娄恒、拍拍贷联席 CEO 章峰一起,分享了对于金融科技领域发展的洞察与观点。

崔晓波认为,科技浪潮影响下的中国金融行业发展经历了三个阶段:

  • 第一阶段是移动化阶段,由于中国移动互联网的高速发展,国内一些金融机构走的非常靠前,在几年内金融行业整体都达到了非常高的移动化水平;
  • 第二阶段是数据化阶段,因为涉及数据安全与隐私保护的问题,又面临着业务场景与科技发展脱节的情况,金融行业在这一阶段的发展速度比较慢;
  • 第三阶段也就是智能化阶段,已经有一些金融机构开始在客服、风控等方面进行智能化的尝试,但是由于数据基础做的不够扎实,在数据存储、计算以及应用方面有巨大的挑战。

圆桌论坛全体嘉宾

此外,意大利前总理达莱马在分享中倡导拥抱区块链技术,他认为,区块链最重要的应用领域就是金融科技,能够帮助降低金融交易的成本、改变我们的生活。但也需要全球化的、更智能的监管,让像区块链这样的创新技术能在控制风险的同时让所有人获益。

中国人民银行金融市场司副司长、百行征信有限公司顾问唐磊则关注征信领域的发展,他认为征信领域是金融科技应用中最基础、也最前沿的一个领域。掌握征信数据的数量、准确度和及时性,在一定程度上决定了金融机构的风控能力,也形成了金融机构的核心竞争力。其他几位嘉宾也在分享中基于自身经验带来了极具洞察力和远瞻性的精彩发言。

国际金融论坛(IFF)是独立的、非盈利、非官方国际组织,由中国、美国、欧盟等20多个国家和地区,联合国及相关国际组织、全球金融机构和领导人共同发起成立。全球新规则的变革与影响已扩展到每一个国家,国际金融论坛(IFF)致力于为全球经济和金融领袖参与对话提供良好的交流平台,通过更广泛的合作对话机制,进一步探讨全球新规则的变革与影响,为世界经济和金融的未来提供前瞻性的思想和可能的途径。