在政策、评估、措施三大方面,从法律角度应对GDPR

近日,由北京德和衡律师事务所主办的“GDPR对国内企业影响圆桌研讨会”在北京举办,会议就欧盟GDPR对国内企业的影响展开讨论。TalkingData法律负责人葛梦莹出席研讨会并受邀演讲,分享作为数据控制者,相关大数据企业应该如何从制定数据保护政策、进行数据保护影响评估、采取数据系统保护和默认保护措施三大方面,应对GDPR的严格规定。​

GDPR,即欧盟一般数据保护条例于2018年5月25日正式启用。GDPR被称为“全球史上最严格的数据保护法案”,将对全球其它地区的数据安全监管起到示范作用。在合法合规性方面,TalkingData一直走在队列前端,不仅自我严格要求,同时在技术上做了大量的探索和实践,致力于与更多合作伙伴共同打造值得信任的、安全合规的数据开放共享和价值变现生态。

在演讲中,TalkingData法律负责人葛梦莹表示,数据安全和合规性是数据公司最重要的企业使命,TalkingData一贯以来对任何与个人信息、数据保护相关的法律法规都格外的敏感和重视。在相关法律出台后,第一时间审视、评估产品与业务模式的合规性,自上而下严格按照法律法规的要求执行。尽管目前TalkingData尚未在欧盟开展相关业务,但作为国内领先的第三方数据智能服务商,TalkingData还是决定在符合国内法律法规、行业规范的前提下,也对GDPR的相关规定进行深入解读并采取应对措施。

“企业具有数据处理的合规义务,应当采取适当的技术、组织措施来实现数据保护。针对GDPR,企业不仅需要制定相关的数据保护政策,同时,应该对数据处理行为的风险和损害进行评估,并采取必要的保障措施。”葛梦莹在演讲中强调,“企业应进行主动保护而不是被动应对,应事先预防而不是事后救济。在大数据时代,任何一家企业都需要深刻思考,如何在保护数据和利用数据上达到平衡。”

区别于常规企业由法务部独立完成合规,TalkingData在新业务模式和产品设计开始前,就将数据保护措施纳入基础规划中,在新法规出台后,及时对既有产品的合规性进行评估,如有必要,则重新设计产品或业务流程。目前,TalkingData在数据保护方面积累了大量的技术探索和实践经验。例如,在数据处理中采用布隆过滤器等匿名化处理技术,确保在数据匿名化、且不可识别的前提下发掘数据价值。

此外,TalkingData设立了包括硅谷边缘计算实验室、人本实验室在内的多个大数据、人工智能实验室,并与MIT连接科学研究所展开合作,参与创新技术框架OPAL的研发。OPAL(Open Algorithm,开放算法)技术的特点是,数据保持加密和不移动,而借助算法对数据进行分析,只输出安全的分析结果,实现既保护数据安全、也能从数据中获得有价值的洞察。

未来,TalkingData将继续致力于在确保数据安全及合规性的前提下,加速大数据、人工智能相关技术的探索和演进,与国内丰富的应用场景相结合,驱动国内数据生态的良性发展。

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

活动回顾|《数驱•营销闭环 助力品牌增长》全国巡演广州站

沙龙现场,认真聆听的参会同学们

5月29日,TalkingData在广州成功举办了《数驱·营销闭环 助力品牌增长》全国巡演第二站营销主题的线下沙龙。为了帮助广州站营销圈内人,解决每一阶段遇到的广告营销问题,TalkingData诚意邀请到TalkingData华南区数据营销业务负责人 叶凯文 TalkingData数据分析高级总监 王鹏加和信息科技副总裁 Jimmy Liang腾讯社交广告/大客户方案运营中心/3C行业策划经理 黄倚圣为大家分享营销案例和经验。现在,我们一起回顾下在本次沙龙中嘉宾们分享了哪些营销干货。

01《TalkingData-2017移动广告行业报告》

分享人:TalkingData华南区数据营销业务负责人 叶凯文

 

1.点击量增速远超激活,虚假点击刷量严重

2017年,移动效果广告点击总量相比2016年增长超过17倍,其中iOS平台点击量同比增长1776.2%,安卓平台点击量同比增长366.2%。2017年移动效果广告推广激活总量同比增长41.9%,其中iOS平台同比增长17.1%,安卓平台同比增长123.2%。点击量增速远超激活,利用虚假点击刷量情况不容忽视。

2.模型识别作弊流量,帮助广告主节省经费

2017年,在全平台点击量井喷式增长的情况下,8月底上线防作弊模型后,经模型识别,系统累计拦截超2千亿次无效点击,约减少2亿次撞库可能产生的推广激活,为广告主节省约20~30亿元推广费用。

在防作弊模型作用下,iOS平台移动效果广告有效点击量呈增长态势,下半年有效点击总量相比上半年增长144.9%。而安卓平台移动效果广告有效点击量则呈现较为稳定的态势,下半年有效点击总量与上半年相比下降1.7%,上下半年数据基本持平。

3.Brand Growth平台助力品牌广告监测

2018年,TalkingData将重磅推出品牌广告监测产品 BrandGrowth,利用移动端数据的可追踪性及持续性,实现品效联动,帮助广告主进行媒介计划制定、广告监测及营销效果评估,贯穿品牌营销全链路,助力品牌价值增长。

02《数据助力营销 闭环驱动增长》

分享人:TalkingData数据分析高级总监 王鹏

TalkingData数据分析高级总监 王鹏把本次分享内容分为4个模块:

1.势:数据洞察行业趋势;

2.道:厘清营销模式流程;

3.术:数据构建营销策略;

4.器:产品助力营销闭环。

我们在本篇中带大家主要回顾第4部分。

完整分享内容,扫描文末直播二维码。

1.术——数据构建营销策略

王鹏把在数据构建营销策划环节,拆分成:产品定位用户研究、数据助力策略制定、灵活通联数据准备、闭环监测效果优化这4个闭环模块。

  • 需求分析–产品定位及用户研究

王鹏根据以往的汽车和游戏案例具体阐述了,真正明智的广告主是不会自定义客户的样子,而是应该从数据的角度去定义。TalkingData的海量数据可支撑广告主全面深度研究用户,助力广告主挖掘用户特征和产品趋势,优化广告主公司业务,持续保持行业领先位置。

  •  投放策略–多维数据助力策略制定

在以往投放策略里,通常我们只能考虑一些简单的像人口属性、区域等这样的维度。但是现在,可用更多维度,做投放策略支持。

  • 数据准备–灵活联通,定向筛选,多维组合

营销策略和数据准备是可以通过TalkingData的TDID打通的,灵活使用种子人群数据和把线上线下数据进行融合,变通的结合客群研究和产品定位制定投放策略。在数据准备时可以从标签、终端属性、线上、线下、时间,这些维度去组合考虑。

  • 闭环监测–效果优化,分群分析

在策略投放完成后,可通过TalkingData的Ad Tracking进行效果监测。广告主可通过广告监测对投放效果和媒体质量进行评估,媒体可通过广告监测做实时结算依据。

03《构建开放的大数据营销生态圈》

分享人:加和信息科技副总裁 Jimmy Liang

Jimmy认为目前在整个数据行业里,数据并不少,而是非常多。即使这样,很多广告主还是面临“看见很多数据,但它们是割裂的,数据数量很大,但没办法流动起来”这样的一个问题。在本次分享中Jimmy表示此前通过清晰的数据,可以更好的掌握营销。但在互联网时代,很多原有的评估指标变得不太确定。根据与客户交流、沟通和多年从业经验,Jimmy总结出品牌需要更开放、更灵活和更安全的智能营销解决方案。

更多营销观点和案例分享,扫描文末直播二维码。

04《智能营销 始终于人》

分享人:腾讯社交广告3C行业策划经理 黄倚圣

在本次沙龙中腾讯社交广告3C行业策划经理 黄倚圣,为现场同学分享了数据如何在投放环节中应用、结合数据如何在投放各个环节中融入创意并对其整合等经验。黄倚圣还分享了大量数据在投放环节的实战案例,给大家以后投放作为参考。了解实战案例,扫描下方直播二维码。

观看完整沙龙视频:

https://link.zhihu.com/?target=https%3A//lnk0.com/V9MdE1

————-TalkingData数据服务介绍———

基于营销闭环,TalkingData有以下数据产品服务能力,帮助客户从业务角度解决问题。

  • 数据市场–SDMK

用数据帮助传统企业转型升级为数据驱动型企业。详细了解,请点击阅读

  • 智能营销云–SMC

依托于TalkingData强大数据源和TD数据市场的互联数据,从目标客群寻找、客群特征洞察、营销流量连接触达,到营销效果监测并学习提升的一体化数据营销闭环平台。详细了解,请点击阅读

  • 移动广告监测–Ad Tracking

量化移动广告推广效果,聪明的使用每一分钱。详细了解,点击阅读

  • 品牌增长分析–BrandGroth

一款基于大数据贯穿品牌营销全链路助力品牌价值增长的产品,除了效果转化外,更能看到广告主品牌美誉度的提升。详细了解,请点击阅读

TalkingData联合Kaggle建立中国数据集专区

近日,TalkingData与国际领先的竞赛平台与数据科学家社区Kaggle达成战略合作,联合在Kaggle网站上发布中国数据集专区。此次合作旨在为Kaggle已有的庞大数据集资源池加入更多有价值的中国数据,通过开放独一无二的中国移动互联网脱敏数据集和真实商业场景,与全球超过50万名数据科学家合作、交流、同台竞技。这对于全球数据科学爱好者来说是一个了解中国用户的契机。未来,在全球各地对数据挖掘感兴趣的工程师热情参与下,将能够为全球数以百万计的开发者提供更为有效的数据服务。
 

TalkingData成立近七年,为超过12万款移动应用,以及10万应用开发者提供服务,同时服务于金融地产快消零售出行政府等行业中的领军企业,拥有强势技术能力及丰富行业经验,。

依托于优质海量数据,TalkingData希望此次合作能够帮助全球数据科学家构建更准确的预测模型,借助先进的机器学习和深度学习技术实现更高效的数据分析。也希望借助Kaggle这个开放的平台将脱敏数据共享给全世界最优秀的数据科学家,让他们用最聪明的办法解决最有挑战性的问题。

TalkingData CEO崔晓波认为“数据是链接中美智能应用的桥梁”。近两年来,TalkingData团队与Kaggle已共同举办了两场活动,为此次深度合作奠定了基础。

2016年7月,TalkingData首次将Kaggle算法大赛引入中国,开放部分脱敏后的中国移动互联网用户行为数据集给全球热衷数据科学的挑战者,进行用户人口属性模型预测。历时2个月的大赛吸引了来自全球70多个国家和地区的2600个团队参赛,创下了当时Kaggle单个竞赛参与人数的新纪录。

2018年3月,TalkingData 再一次联合 Kaggle 共同发起 TalkingData 全球广告反欺诈算法大赛。此次比赛提供与中国广告反欺诈相关的独特应用场景与脱敏数据集,来自全球91个国家和地区的3967支队伍报名参赛,在参赛人数上再创新高,体现了全球数据科学家对基于中国行业数据集探索和解决实际问题的兴趣。

此外,前三名获奖团队中有两支团队来自中国,可见也有越来越多的中国数据科学家参与到国际性竞赛中来,切磋技艺寻求挑战。此次大赛为广告反欺诈提供了诸多新思路和新方法,也为国内广告行业的健康发展带来了驱动力。

打造中国的“湾区”需要几步?

大家都知道美国有个硅谷,而硅谷就位于旧金山湾区(The Bay Area)。旧金山湾区是全球最重要的高科技研发中心,还是美国西海岸最重要的金融中心,拥有众多世界500强企业。

“湾区”是一种重要的滨海经济形态,它们以开放、创新、国际化为特征,成为国际经济和科技网络中的重要节点。

2017年人大政府报告中提出,要推动内地与港澳深化合作,研究制定“粤港澳大湾区”城市群发展规划。

“粤港澳大湾区”,包括广州、深圳等广东省9市以及香港、澳门两个特别行政区。这不算是一个新概念,从30年前改革开放初期,到香港澳门回归,粤港澳间一直在向着携手前进的方向发展。

显然,粤港澳大湾区已经具有天然的地理位置基础,再加上香港这个金融中心和深圳这个科技创新中心,“粤港澳大湾区”的提出顺理成章。

2017年7月1日,在习主席的见证下,国家发展和改革委员会、广东省政府、香港特别行政区政府与澳门特别行政区政府共同签署了《深化粤港澳合作 推进大湾区建设框架协议》。

政策的地基已经打好,一切蓄势待发。但是,真正想把“粤港澳大湾区”打造成中国的“旧金山湾区”,要克服的困难还有很多。

这是一个非常重要且充满潜力的话题。5月27日在贵阳数博会上举办了“粤港澳大湾区暨国际分论坛”。来自粤港澳与贵阳的政府高层与行业专家,深入聊了聊建设“粤港澳大湾区”所面对的问题以及应该做什么。

香港特别行政区政府财政司司长陈茂波与贵州省人民政府副省长卢雍政在致辞中都表示,两地政府非常重视大数据战略与应用,并且认为大数据将在粤港澳大湾区的未来发展中扮演关键角色。

那从大数据行业的角度,能为建设粤港澳大湾区提供怎样的动力?又该如何去做?

分论坛的圆桌论坛环节上,来自政府、学会、行业协会和企业四方的代表,分别提出了他们的建议。

他们是香港特别行政区政府资讯科技总监杨德斌、中国信息安全研究院副院长左晓栋、全国人大代表&华人大数据学会执行主席洪为民、深圳市信息行业协会秘书长陈一木、京东金融副总裁&首席数据科学家郑宇、TalkingData首席执行官崔晓波。

信息孤岛带来的痛点

粤港澳大湾区内存在两种体制、三种法制,这是无法回避的现状。实现粤港澳的区域一体化,首先需要跨越制度的不同,关键是实现粤港澳间的信息互通。

杨德斌:无论是香港、澳门人到内地,还是内地人去香港、澳门,是否能够和在本地一样便捷的办事。这就是信息流通的问题,需要在整体规划中提出来,用一些行政手段去解决。

陈一木:虽然现在深圳到香港通关已经方便很多,但遇到高峰还是非常耗时。如果能打通数据,根据两边关口的人流量动态协调过关时间,能够更便民。

左晓栋:现在内地已经习惯了微信、支付宝这样的移动支付,但在香港澳门还不太普及。这涉及外汇管理的问题,但是本质上还是金融数据没有互通的问题,信息流通不起来就无法实现区域一体化。

崔晓波:关键还是身份体系的打通,这是下一步金融、交通等体系打通的基础。现在已经有企业在推广E-ID(电子身份)的概念,希望可以从政府政策层面在大湾区落地。

洪为民:现在各地间存在着信息孤岛,需要联合打造一个大数据共享平台,通过制定相应标准和数据脱敏,将各渠道的数据共享出来。数据只有共享才能产生更大的价值。

打通数据、共享价值,才能实现真正的政策通、人通、钱通、一体化道路通。

要开放共享也要安全

数据共享是现实需求,但数据安全也是现实障碍。要有可信并合规的模式,来打通阻隔开数据的门。技术,是打开这扇门的钥匙。

杨德斌:香港特别行政区行政长官林在去年的司政报告提出8个方向,其中一个就是开放数据。目前香港的开放数据政策已经在内部讨论中,年终即将公布。

左晓栋:各领域的数据开放,尤其是政府数据开放,安全是基本。由国家发改委牵头的政府数据开放安全解决方案一直在研究中。大湾区数据共享和流动是实现有赖于政策的制定和执行,也有赖于技术的进步。

崔晓波:解决数据安全共享的问题,只能靠技术解决。现在已经出现了通过联合建模算法,来解决数据分享问题的方案。TalkingData目前正与MIT合作研发一种叫OPAL(Open Algorithm)的技术框架,不数据流动,只流动算法,来保障数据安全。

郑宇:政策可以制定,技术也有解决方案,最后的落地还是要看人,需要人具备相关的理念和素质。数据打通是很重要的事情,人才的联合培养要先做起来。

数据共享的关键在于安全,有了安全可信合规的共享机制,才能真正实现数据的开放共享。

外引内流聚集人才

人,是政策的执行和落地者,也是最终的应用者和受益者。想从数据中获益,首先要拥抱数据的思维;想用数据赋能粤港澳大湾区,首先要建立数据人才队伍。

崔晓波:中国的数据人才非常稀缺。通过我们对硅谷最大的数据科学社区的调研,国内能够写算法做模型的专业数据科学人才数量与国际有100倍的差距。中国拥有世界上最好的数据资源,美国拥有最强大的人才社区,可以结合起来。

郑宇:培养大数据人才,重点是培养懂工作机制、懂业务场景的复合型人才。这样的人才不能只在学校上课、只靠传统教授教的知识来培养,而需要学校与企业合作,在教育中融合真实案例和数据。

陈一木:香港拥有顶尖高校与人才资源,而深圳拥有创新企业与人才发展平台,希望深港两地能建立起人才互通机制。

崔晓波:我们也创立了针对性引进优秀留学生“梧桐计划”,为海外顶级高校的中国学生提供职前培训和实习期,让他们了解和感受国内发展情况和企业就业情况。目前参与计划的人留在国内工作的比例很高。

没有人,再好的想法也无法落地。想要填平数据人才的“洼地”,除了要促进区域内的人才培养与流通,还要积极引入海外人才,聚集全球化的智慧与视野。

智慧城市以人为本

数据是连接大湾区的桥梁,智慧城市是建设大湾区的图景。TalkingData首席执行官在“粤港澳大湾区暨国际分论坛”也分享了对构建智慧城市的思考。

崔晓波:

数据不是冷冰冰的,而是与人、与生活密切相关的,我们称之为——人本数据。

由于数据体量与计算力的变化,我们看世界的角度从实体物质化变为数据虚拟化。无论是AlphaGo还是无人车,大数据与人工智能将让未来研究所有问题的方法都变得虚拟化。

大湾区的人口密集度和人口流动性都比较高,在区域一体化的建设中,需要借助数据去改造城市、惠及民生。

分享一个案例。我们借助机器学习算法对北京市不同收入人群的生活轨迹进行了分析,用数据证明了不同收入人群即使处于同一时空也很少有重叠和交互——即曾受热议的“城市折叠”理论。这为城市规划提供了重要参考,要从规划角度为不同人群创造交互的条件,这样才能让城市更有活力。

人本数据不仅可以应用在社区的规划上,也可以应用在政府管理上。例如我们通过与国家统计局合作构建的数据模型,整合15种数据源,对京津冀地区与大湾区之间的人口流动做了动态分析,体现政策变化、节假日等各种因素对人流量的影响,可以帮助政府建立实时动态的响应机制。

只观察人的行为是远远不够的,我们更关注人的心智,关注人的行为模型背后的心理特征。未来,对人的研究也会从物理化走向虚拟化。

大数据要取之于民而用之于民,这样才能构建起人为本的智慧社会。

DT数据侠专访崔晓波丨数据“独角兽”是怎样炼成的?

崔晓波简介

崔晓波毕业于南开大学,曾先后担任BEA亚太区电信技术中心总监和Oracle大中国区A&C技术总监。2011年,创立了TalkingData,将“数据改变企业决策,数据改善人类生活”作为公司愿景,践行“一切用数据说话”的原则,通过数据帮助客户实现一切可实现的价值,成为客户信赖的长期合作伙伴。

2010年,崔晓波和几个朋友来到地坛公园,一边晒太阳,一边讨论“创业”的事儿。

在这次创业之前,他身份很多元:包括黑客、程序员、连续创业者、国企处长、技术总监等等;在此之后 ,崔晓波用了七年的时间探索数据科学的商业道路,并成功打造了一个基于移动大数据分析的“独角兽”公司。

代号为“CXB”的“病毒少年”

与很多数据科学家的起点一样,崔晓波的数据之路也是从学生时代的计算机生涯开始的。

1993年,崔晓波考入了南开大学信管专业。中国九十年代的计算机大多还处于英特尔286、386的芯片时代,操作系统还是原始的OS2、DOS等,漏洞和Bug很多。当时与操作系统最直接相关的就是病毒了。很多学生为了完善操作系统的缺陷,开始研究病毒,进行一些“病毒攻防战”,比如第一代大麻病毒、小球病毒、变性病毒等。

国内第一代的程序员们,大多都是从“病毒”做起,崔晓波也是其中之一。

(图片说明:崔晓波在北京办公室接受DT君专访)

崔晓波回忆说,当时在他们系里,一个计算机学生的最高荣誉,就是能够被选中去“管理机房”。当时机房的管理团队都是学校最一流的计算机高手,他们为了保护机房的电脑,设置了很多高级的加密算法,让普通学生无法实现修改、删除计算机文件等。

然而过了一段时间,机房的管理人员发现有人绕过了他们的保护,在系统里留下了一段“CXB”的字符,颇有“到此一游”的意思,这说明有人破解了机房的加密算法。“于是他们就不断提高自己的加密算法难度,我就不断接着去破解,这种攻防战是最费脑筋的,但是也最有意思”。崔晓波回忆起当年的“病毒”攻防生涯,依然津津乐道。

管理机房的同学发现每次升级,都无法阻止“CXB”这段字符出现在系统里。这个代号的实际意义并不难猜,很快,学长们就找到了崔晓波。凭借这个“病毒绝活”,他被邀请加入了机房的管理团队。

在大学里研究“病毒”的时候,崔晓波逐渐结识了王江民、求伯君、吴晓军等中国最早的一批著名程序员们。其中,王江民的江民公司曾经发布了KV系列等中国最早的杀毒软件,是中国计算机软件领域的先行者。

一个有意思的小插曲是,早在90年代,崔晓波曾经就使用了一个数据科学的模型方法,破解了一款当时号称“无法破解”的杀毒软件:江民KV3000。只不过当时,他还没有意识到自己使用的就是数据科学的方法。

“KV3000中设置了大量的反跟踪陷阱,的确非常复杂,很难破译。”崔晓波回忆说,当时KV3000出来后,四个月都没有出现盗版,足以说明其复杂性。后来,崔晓波使用了一个模型的方法,恰好可以绕开那些逻辑陷阱,成功地进行了破解。

“我每破解完一个软件,就会取一个名字。我当时把破解了的KV3000取名为KK13,几天之后我去逛街,发现有人说KV3000被破解了!我很兴奋,赶紧买了一个回来,结果看到名字是KK13。特别搞笑。”崔晓波笑着说。

由于在计算机系统上出色的表现,崔晓波刚毕业就被吴晓军(DT君注:晓军电脑创始人,其发明的2.13汉卡是中国最早的汉字系统之一。)挖到了一家国企任职。

为了“务实”而来,为了“理想”离开

九十年代末是中国第一波互联网浪潮兴起的原点。腾讯、阿里、新浪、网易等这些后来的互联网大佬多是从98、99年开始起家,打造自己的互联网商业帝国。

而在太平洋的另一岸,美国的互联网也在经历着历史上最明媚的春天。这也吸引了很多优秀的中国程序员前去学习深造,寻找机会。

毕业了的崔晓波当时并没有考虑太多这些所谓的大趋势,来自新疆的他想法很实在——得先能在北京站住脚。“所以我就问了吴晓军两个问题:能解决北京户口么?能解决住房么?吴晓军说可以,我就来到了这家国企。当时真的没有考虑太多,直到进来才发现,这是一个卖农药和化肥的农产品公司,和数据、互联网几乎没什么关系。”

在那家公司里,崔晓波更多是被看成一个“修电脑的”,而不是什么互联网人才,这让一直很要强的他产生了一种强烈“要做事”的冲动。

“我当时看到了电子商务的可能性,于是就给领导写了一个关于创办农资交易网可行性报告。”虽然没太明白他要做什么,但是领导还是对崔晓波的想法提出了精神上的鼓励,以及物质上的“不支持”——只可以用公司的名头。于是,崔晓波就只能开始全部自己来。他为了创办农资交易网站,写了人生第一份BP(商业计划书),然后找融资、谈担保、拉货源等等。“最后还真在网站上卖出了一吨化肥!”崔晓波兴奋地回忆说。

后来他还牵头做了中国彩票网、中国企业网、棉花的交易系统等项目,是地地道道的连续创业者。这些项目大多取得了不错的效果——二十多岁的他那时已经成为系统内最年轻的处长,处理过上千万的投资交易,管理过几家不同类型的公司,从某种角度来说,他已经取得了世俗意义上的成功。

但这时他心中“理想主义”火苗却又在跳动了,最终,崔晓波还是选择了离开。国企体制化的环境与互联网“野蛮生长”的基因有着天然的冲突——“我觉得我不能一辈子呆在国企。”

崔晓波的离职当时还引起了一阵审计风波,因为大家不相信会有人放弃这么好的工作环境和待遇,去做其他的事情。他回忆当初的情景时说到:“领导当时还打趣说:‘小崔你是不是经济上有问题,你要老实交代啊’。”其实他当时只是觉得互联网和数据能做更多的事情,而自己不该局限于此。

离开国企后,崔晓波自降2/3的薪水,来到BEA System软件公司从头开始,一路从底层的合同工做起,到正式员工、管理岗,最后做到总监。BEA在2008年被Oracle收购,崔晓波也顺理成章地进入了Oracle。

这段外企的工作经历让崔晓波对现代的经营企业有了更多的认识。用崔晓波的话说,BEA教会了他如何运营一个创业团队,在Oracle则领悟到了如何把业务做大的秘诀。

一转眼到了2010年,已经在IT届摸爬滚打多年的他,再次逐渐开始思考创业的可能性。

理想主义的选择

那时的崔晓波已经35岁了,是Oracle大中华区A&C部门技术总监,在外企过着光鲜平稳的金领生活。不过,这份平静很快就被一块叫做“数据”的石子打破,并在以后的时间里不断地在他的生命中泛起波澜。

关于这次脱产创业,崔晓波一开始并没有想太多。他从自己过往的经历中,觉得看到了一个未来可能的新趋势——数据,于是认为自己应该去做这件事儿。

他们在创业初期讨论的话题非常理想主义,甚至“不接地气”。不谈市场、不聊客户、不提需求等一切商业的基本元素,崔晓波每天就只思考一个问题:做数据到最后,究竟是在做什么?

这有点像创业者版本的“人生三问”(虽然简化成了一个问题):我是谁?我从哪里来?我要到哪里去?——在崔晓波创业初期, 这种终极的创业哲学问题是最让崔晓波最操心的事情。某种程度上,这源自于崔晓波自己性格中对于理想主义的偏好。

在崔晓波职业生涯的几次选择中,每当现实与内心想法产生冲突的时候,他总会选择“唯心”一把。从开始做数据到现在,他会经常说到一种“数据信仰”,几乎把这种唯心式偏好发挥到了极致。

不过,如果你把自己还原到2010年的场景中,你会自然地感觉这种天马行空讨论,并不会有什么结果。彼时,“数据科学”在国内还不是一种显学,没有多少人留意它;互联网世界还集中在Web端的流量争抢中,3Q大战激战正酣;Nokia的功能机依然在手机市场上独霸天下,占据着中国市场将近50%的市场份额。

但是程序员出身的崔晓波,让他在当时对数据行业做了两个非常“务实”的判断:第一,手机将不再只限于通话;第二,数据将在移动互联网端产生爆发。

数据“独角兽”

“2008年的时候,我曾经有一次加入腾讯的机会。Pony(马化腾)当时跟我说了一句话,我印象非常深,虽然那个时候腾讯还没有如今这么大的规模,但他坚信:腾讯未来将改变人们的通信方式。”

崔晓波深以为然。虽然听起来有点俗套,但他认为伟大的企业普遍都有一个宏远的愿景。他从“数据分析”这个核心商业点出发,最后为公司定下了两个愿景:数据改变企业决策,数据改善人类生活。他认为未来企业的决策方式一定会从“经验性地拍脑袋”,转变为“科学地看数据”,而且未来人类的生活,都将会因为数据而发生深刻的改变。

不过理想很丰满,现实却很骨感。在创业的几年中,为了应对不断变化的市场环境,崔晓波也带领着公司几度改变业务方向。

覆盖手机端的移动互联网大数据分析是崔晓波的起点。从最开始的数据分析工具、到后来企业级的定制化数据服务,再到聚焦于几个垂直行业,做数据产品(数据集、数据模型和数据应用)。如今,TalkingData的月活跃用户已经突破了7亿,服务超过12万款移动应用以及10万多应用开发者,如今已经成为国内领先的独立第三方数据智能服务商。

如果仅仅是做数据分析,崔晓波并不是最早的一批先行者。百度等一批手握流量的企业其实早就开始了这方面的业务探索,但是很多公司为了流量和短期的变现,逐渐将数据分析与营销、广告等业务打包在一起,很难发挥出数据分析的客观性价值。于是崔晓波决定从侧面切入——“专注地做数据”。不推销、不打包,坚持第三方独立,崔晓波选择的落脚点,为自己的业务积累下了一批批忠实客户和良好的业界口碑。

“刚开始有些客户不相信,但是他们观察了两年后,发现我们真是这样,只专注于数据这一件事儿,不参与其他推广活动。有些客户的业务,也真的因为引入了数据分析而实现了快速增长,例如游戏、金融等行业。”

后来,当业务高速发展的时候,他们也走过一些弯路,比如布局DSP广告。“我们花了很大的精力和财力投入到DSP(Demand-Side Platform,需求方平台)广告的业务上,希望帮助广告主优化广告效果,但是忙活了很久都没有什么效果。”崔晓波最后认识到,这是因为国内的广告流量数据被污染得非常严重,以至于无法进行有效分析预测。平台主并不希望让自己的流量公开透明,从而影响财路,这使得整个行业的保护主义盛行。这也让崔晓波意识到第三方平台的局限性——如果平台的数据不真实,那么流量分析就是没有价值的。

创业初期,崔晓波的公司基本模仿了BEA时期的创业模式,非常高效;后来随着规模的扩大,他逐渐将在Oracle时期学到的渠道管理方法,移植了进来,通过打造数据生态的方式,拓展自己的数据源,优化产品和服务。

到2017年底,在各大媒体评的报告中,他的公司以超过10亿美元的估值成长为国内数据分析领域领先的“独角兽”企业。

以人为本的数据科学

2016年AlphaGo与李世石的围棋大战,可以称得上是数据科学世界的里程碑事件。由于这次比赛后,AI(人工智能)话题开始发生井喷式的增长,正式引发了2017年全球的AI产业热潮。

作为业余围棋五段选手,崔晓波和聂卫平老先生一起解说了李世石与AlphaGo当年的第三场比赛。“看完第三场后的第一感受就是绝望”,崔晓波说,“人类最好的棋手,在AI面前一点机会都没有,AI一步都不会下错。”

(图片说明:AlphaGo大战李世乭;图片来源:纪录片《AlphaGo》电影截图)

崔晓波认为,AlphaGo当时所展示出的AI技能主要在三个方面:价值网络、策略网络和蒙特卡洛搜索树搜索,其中蒙特卡洛树搜索是这次AI浪潮的核心。但是经历了一年多的发展,AI在其他行业的应用,并没有向人展示出类似在围棋领域足够的震撼。崔晓波说;“AI的本质只有一个,就是帮人做决定,但是除了在特定的诸如围棋等领域,AI还不能够达到比人更好的决策水平。”

所以,与其研究AI如何帮人做决定,崔晓波认为当下更实际的是,不如利用数据科学研究“人”本身究竟是如何做决定的。他受到MIT的人类动力实验室的启发,在公司成立了一个“人本实验室”,把数据科学与社会学、心理学等人文科学结合起来,研究人心里的内在动机和社会行为。

“目前,大部分商业数据公司主要是通过数据,观察人的活动行为,进而判断人的特点,作出相应的商业决策,并不关心人心理做决策的真正原因和动机。”崔晓波认为,人本实验室就是为了弥补这一点,让数据科学更加“以人为本”。“在数据时代,人的心智也在发生急剧的变化,这是我们做这个实验室的初衷”,崔晓波说到。

2017年底,崔晓波的人本实验室团队,用机器学习等数据科学的方法,重新对北京城市的人群做了一次分类。由于工业化和城市化的影响,传统的城市人群会根据阶层划分,在城市中形成多个中心化的网络布局,例如北京的金融街、CBD、某某学区等,这直接影响了城市规划和资源分配方式。

当崔晓波用时空大数据重新观察北京的人群时,他发现了一种基于时空折叠的新的分类方法。由于人们的作息时间、生活方式不同,有些传统意义上应该是某一阶层的人群,其实在生活中完全没有交集——他们都在国贸出现,但是永远碰不到——这就会让一个城市缺乏活力,影响资源的分配效益。数据科学给出了七种人群划分,然后,他们再用社会科学的方法去解读、验证它。

只有了解数据,又了解人的行为模式和动机,才能够进行更好的用数据改善人类生活。这可能是未来数据科学,离我们普通人最近的样子。

在采访的最后,崔晓波总结自己,是一个数据科学领域里“务实的理想主义者”。这听起来有点矛盾,不过,纵观他的职业生涯,他对人对事总是“很实在”,对自己对未来却又充满“理想”。在虚实之间,他似乎总能找到一种奇妙的平衡状态,践行着自己的数据科学之道。

注:

本文转自公众号:DT数据侠

原文作者:程一祥

智慧商业,数据之选

 

日前,腾讯云联合国内领先的数据智能服务商TalkingData,在“2018 云+未来峰会”上正式对外公布了面向线下品牌商的数据智能产品——智选。这是一款将海量数据与机器学习有机整合,旨在解决实体门店的选址、商圈经营等场景问题,为智慧零售及多元化线下产业助力的数据智能产品。

近年来传统零售行业面临着前所未有的挑战,从网络、电商的飞速发展,至逐渐升级的线上线下有机整合,体验提升,智慧零售逐渐走进生活,改变着人们的消费习惯。智慧零售是新技术和实体产业的完美融合,倡导开放共享的生态模式,核心是社群、数字化、体验,以支付为原点、以“人”为中心、以大数据为驱动,帮助实体零售实现“降本提能”,拓展业务能力、耦合行业资源。这些元素在本次发布的“智选”产品中都得到了充分体现。

开店是线下品牌商面临的第一个问题,如何选择符合自身品牌特质的区域,目标城市、目标客群是否符合自身需求?各区块之间存在什么样的差异?具体到运营层面,目标区块内的潜在客户对商品的需求是怎样的?对不同品牌的接受度如何等问题,都是线下零售业面临的挑战。以往,由于缺乏有效的数据支持,这些问题往往得不到解答。而像选址、商圈运营等决策问题,只能靠人工收集材料后凭借过往经验进行判断。

“智选”依托于强大人本数据、地理信息数据和商业经济数据,结合经典模型和预测算法,从商圈区位洞察、潜客浓度探索、职住通勤研究,以及商圈配套与经济研究等多种角度,帮助企业在新消费环境下打破时空信息的不对称,高效量化推动基于位置商圈的经营决策,获得竞争先机。

“智选”致力于对选址中三大核心问题的解决:

  1. 从跟随友商式的“盲选”模式,向“优质区位优选”模式的演进;
  2. 从商圈宏观客流研究模式,向潜客深入挖掘的演进;
  3. 从研究汇报模式,向直抵根源的营业额预测方向演进;

结合经典选址模型实现的“一键区位推荐”,是“智选”的一大特色。综合考量全城市每个区块区位的客流和人口规模、意向客群浓度、区位商业浓度氛围、周边临近竞争形势,量化为模型评分,将原本需要几个月完成的工作秒级一键输出;推荐选址点精确至百米街道级别。打破过去被动评估模式,让品牌联营商在城市进驻时的门店覆盖战略,能够做到有的放矢。

图1:图为“一键区位推荐功能”
为某零售商精选的百米精度高分段区位

除了提供便捷、高效的智能选址功能外,“智选”通过强大数据能力,全方位、深度分析意向商圈区域,对商圈客流坪效进行评定,涵盖客流、性别、年龄、职业、兴趣爱好、消费偏好、区域配套设施等全面维度;同时提供月份、周度、全日24小时的客流潮汐变化,帮助零售企业全面评估其意向客群在客流中的深度和占比。在量化数据的基础上,为选址的开、停、并、转研究场景提供决策支持。

图2:图为“商圈区域洞察功能”
为某餐饮加盟店出具的部分深度客群洞察

此外,选址和客群研究的最终目标是门店业绩得到保障,解决选址点的销售预测问题是从根本解决的方法。“智选”通过在机器学习预测上的经验积累,将成熟的生产级预测评估模型整合在产品中,以“品牌-城市-训练”的方式,在线高效提供选址点的销售预测数据,为经营分析人员提供量化、准确的决策支持,极大提升以位置为核心的商圈经营策略成功率。

图3:图为“机器学习云选功能”
为某连锁便利品牌预测的百米店址区位与月营业额匹配关系

腾讯云大数据应用产品总经理聂晶表示:“通过结合双方优势,利用先进的大数据建模能力,共同致力于“智选”平台为行业带来革新,让大数据更加公正、准确、便捷地为线下企业提供商业化选址。

聂晶 腾讯云大数据应用产品总经理

TalkingData产品副总裁闫辉表示:“双方的合作,使得我们的业务理解和算法得以落地,打破时空信息的不对称。如今我们联手发布产品,让更多的实体品牌客户选址更便利,改变原有大海捞针的被动选择为有的放矢。”

闫辉 TalkingData产品副总裁

 

关于腾讯云

腾讯云——腾讯倾力打造的云计算品牌,以卓越科技能力助力各行各业数字化转型,为全球客户提供领先的云计算、大数据、人工智能服务,以及定制化行业解决方案。

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

新零售:“无法阻挡”还是“无能为力”?

​提到新零售,你的第一印象是什么?

早上吃饭,煎饼果子可以手机支付了;

中午休息,外卖来得越来越快了;

加班的晚上,发现去年刚装的无人货架,今年因为销售量太低而拆掉了;

回家的路上,一窝蜂建起的无人便利店落满灰了;

躺沙发上刷刷手机,猜你喜欢,似乎已经比伴侣更合心意了;

不知什么时候开始,亲人租赁也成为一种产品了;

人造节日越来越多了,双11也开始走向线下了;

当年神仙打架散下来的补贴,算算也还得差不多了。

互联网公司、咨询公司、甚至传统软件公司都在谈新零售和数字化转型,模式之纷繁,链条之广袤,史无前例——似乎不谈谈流量变现,不说说几个O,不把人从业务环节中消灭,不烧烧钱看个热闹,都不好意思说自己是零售从业者了。

粉丝经济也好,O2O也好,无人也好,补贴也好,都只是零售行业中似新而不算新的手段,并不构成新商业模式——沃尔玛在二十世纪七十年代就推出了电话订货,门店送货。然而今天卷土重来的这场零售变革似乎并未转瞬即逝。眼前的“新零售”,它究竟“新”在何处?能带来什么样的企业价值?如何为企业赋能?未来潜力在哪里?今天我们一起通过真实案例,来看看这场热闹背后,到底是“无法阻挡”,还是“无能为力”。

这一轮新零售的契机在于数字化基础设施能力大幅提升

其“新”体现于人的比特化、货的产销化、场的无界化

在零售行业,企业和消费者求变的渴望存在已久。企业有营销预算,逐渐不知道花在哪里才有回报;消费者要求更高,不像上一辈那样认为消费能满足温饱就好。然而真正让这一轮零售变革无法阻挡的,是技术的发展,是数字化基础设施能力的大幅提升。

随着数据采集方式的丰富,数据的维度也愈发饱满起来。从前我们只能对发生交易的顾客进行分析,而现在已经能通过线上埋点、线下WIFI探针、物联网技术、移动支付、位置服务对交易前各个“场”在不同阶段的交互行为进行分析,形成POS前洞察。表面形式上的花样翻新治标不治本,真正的变革是建立在行为的数字化及数据资产的积累基础之上的。企业可以通过设置场景、增强与既有顾客和潜在顾客的互动来丰富数据资产。互动越多,就越有可能产生更深度的交流,留下更多“痕迹”,让企业为顾客提供更贴心的服务。

新零售的“新”,归根结底依然围绕三个核心元素——人、货、场,具体体现为人的比特化、货的产销化、场的无界化

1、人的比特化——行为更加清晰,人群范围扩大

比特化就是通过数字化,以最小的单元,对人的特征及行为进行记录和传载。

从前企业只能对自有会员的交易数据进行分析,如今在RFM+模型和CLV+模型中,我们加入交互行为和场的数据,让既有顾客行为更加清晰,将顾客人群的范围扩大。当我们说高价值顾客的时候,会多思考一层——以哪个渠道?是购买金额最高的顾客?是利润最高的顾客?还是传播力最强的平民KOL?同样是新客户期,到底是有活跃到访但没有发生购买的顾客,还是根本没有到访行为的顾客?此外,通过一三方数据相结合的数据挖掘,我们能够客观洞察顾客在品牌外的价值主张,投其所好,并且在第三方池触及潜在顾客群。

了解顾客后的下一步是什么?杀熟吗?当然不是。对顾客的运营要坚持利他原则,一切从顾客的角度出发。

在与某零售企业合作中,我们结合一三方数据,探索注册未购买顾客和活跃顾客的APP行为习惯偏好、品类偏好、客单价分布、购买时间分布,设计恰当的推广品类,利用品牌自身线下流量规模与第三方置换异业权益。在这场活动中,品牌摆脱了传统的积分换购和特殊折扣等影响毛利的减法行为,而采用降维打法巧妙避开价格战,顾客以远低于市面上的价格获得心仪的权益,创造商家与顾客共同获益的双赢生态模式,首次活动便创造20%的销售增量,经过迭代之后更是创造了200%的销售增量。

2、货的产销化——人货交互可见,销售即是生产

顾客付款之前的行为是可洞察的,最早从线上开始——通过线上埋点,品牌能够分析出哪些顾客加了购物车但是没有购买,浏览了A商品的顾客又看了哪些其它商品。随着物联网的不断发展,线下的人货交互行为洞察,也成为可能。人货交互的可见让货品的设计、生产及陈列不再由品牌自己决定,而是让顾客也能够参与其中,产销者的概念由此而生。

image.png

90后乃至00后新生代的一人经济、共享经济、KOL经济、情绪态度消费、去中心化消费,对产品设计、生产、互动触点、传播方式产生了摧枯拉朽般的颠覆。这一代消费者已经不再满足于坐等“货”被品牌生产出来——从江小白的用户生成内容到肯德基的点歌服务,无不体现了消费者对影响产品和服务的热情。

3场的无界化——交易交互无界,虚拟场域概念

场的无界化的第一层意义是,OMO 融合带来了触点争夺的白热化。有人说OMO是线上线下导流,事实上OMO不是企业在自己的主场导流,而是到顾客的战场去——毕竟坐在自家花园里靠品牌影响力等顾客上门的日子已经过去了。交易交互的场已经无界,今天是王者,明天可能是吃鸡,今天是游戏,明天可能是短视频;目前,许多消费者在本地生活圈服务平台的年消费,甚至比第三方电商加起来还多。哪里有流量,哪里都可以做生意。去年九月份的时候,四个星期之内,市场上出现了七款吃鸡游戏,从王者荣耀7000万的日活里面,生生撬出了4000万的活跃用户。如果有客观的数据支撑你看准这样一个流量去经营,就能实现一轮收割。

流量场不断快速更换的局面已经超出了单纯依赖经验的判断已经无法应对不断快速切换的流量场。这迫使企业要借助数据,用更客观敏捷的方式判断,跟上节奏,捕捉管理适合自己的触点。

image.png

场的无界化的另一层含义是,场域概念的虚拟化。如今的实体店,是门店,是展室,也是仓库。企业可以利用虚拟现实技术创造虚拟场,或以前置仓覆盖消费者所在的生活圈服务。两者都需要考虑坪效设计品类,例如生鲜类值得前置,但洗衣液也许就要多加考虑。

新零售对企业的价值——通过业务标签化、流程自动化、分析模型化、应用场景化实现效率和收益的平衡和共进。

传统企业往往紧盯投资回报率或直接收入,而在目前的商业条件下,零售企业可以通过数据实现的商业价值更广,包括效率和收益两个维度。

image.png

1、效率的提升

提到新零售对效率的提升,也许你的第一个反应是“无人”。无人技术的发展是人工智能的一大步,但为了无人而无人,和把顾客在线上线下间无意义驱赶的O2O一样,只是新零售的伪创新。新零售对效率的提升应该体现在企业的整个运行链路当中,通过业务标签化、流程自动化和分析模型化,减少跳入跳出时间和重复工作量,最终实现决策数字化。数据资产的建设、数字化平台的建设、数字化决策能力的建设,都是效率提升的基础。

在与某服装企业的合作中,我们在私有化DMP平台中进行数据资产积累,根据属性、行为、既有标签构建一、二、三方标签,并在基础标签之上,构建自定义标签、算法标签、聚合标签,实现业务标签化;之后将标签部署在平台上,并与营销投放平台全面打通,在一个生态中完成人群筛选调用、投放、数据回流、追踪的全链路,实现一站式营销流程自动化。在每次营销活动之后,该企业根据回流数据分析结果、顾客价值及生命周期变化,判断人群标签有效性,固化成自定义标签,后续即可一键调用,避免重复工作量。标签式人群筛选及放大,颠覆了以往数据库捞人的模式,节约营运时间75%以上,提高企业敏捷应对能力。

在零售选址方面,企业可以通过实时客流热力,直观了解城市主商区、次级商区、辐射商区覆盖域;在客流热力基础上叠加自有门店、竞品门店、增益品牌信息,寻找空缺覆盖片区;结合对目标选址行政区、目标营业时段的选择,采用5C选址方法做多因素综合评分;在优选片区中选定精确店址并继续深化选址研究,利用步行等时圈更科学划定局部商圈,快速获得多址终选的决策依据。

image.png

值得强调的是,如今的数据分析对象早已不仅仅局限于数字,还包括图像、语音、文本、社交关系等。我们紧抓这一浪潮,与某舆情公司合作,尝试分析多个历史网红产品的双微传播路径,聚焦核心传播节点和脉络,设定自由度和凝固度阈值,在发酵期以矢量定位网红食品新词,并追踪其后续声量,帮助企业发现网红食品,及时量产。该分析创造了新的业务细分产品,将过去的人为搜索和预测自动化,大大提高网红食品识别的时间和财务效率,及时捕捉市场热情。

2、收益的提升

分析对收益的提升往往建立在效率提升的基础之上,通过应用场景化实现,体现于会员结构优化、销售增长和成本下降。

某零售企业利用其会员线下POI数据、APP数据和WIFI数据,打造定制化标签,在未购买咖啡的会员当中筛选出潜在咖啡客进行分群、分时、分文案投放,总体响应率比盲投提高约120%。同时,通过分析识别长距离通勤人群等响应率为历史响应率3.5倍的超高质量咖啡潜客群,日后可以作为种子进一步通过在第三方人群池进行放大、LBS或微生态拉新,实现低成本咖啡新客规模化获取。响应率提升带来的销售增长和营销成本的节约可以反哺,为顾客带来更好的产品。

image.png

传播行为数据的可获取性,让零售企业可以通过最小可行化产品(MVP)测试,对权益、渠道、媒介、人群参数等进行效果回收迭代,减少时间及财务浪费。迭代不仅仅是为了找到对的方向,还包括找到该绕开的错误。国内当前注册在案的网红120万个,去年下半年,企业就已经可以以小时为单位来数字化展现网红的效果;人工智能已经能够自动化生成千人千面的素材——人跟品牌之间的交互节奏极快,规模极大,成本极低,因此与其让运营方、设计师绞尽脑汁猜几百万用户怎么想,不如让几百万人来投票。新办法层出不穷,今天最有效的方式是“裂变红包”,明天可能就是“邀请得券”,所谓方法论不是一两个金点子,而是一套敏捷的发现、验证、推广新技巧的机制,在找准现金牛的同时,也做好弯道超车的准备。

在线下营销活动期间,某品牌业利用DID双重差分模型分析活动中的显著指标,设定核心KPI,为导购行为提供科学指导;利用随机森林聚类和分类模型判断影响人群是否购买及购买金额的因子变量,指导后续人群筛选。此举颠覆了以往对管理经验和传统认知的过度依赖,大幅提高决策客观性,缩短人群及店铺筛选时间,降低人员培训成本。

3、新零售的赋能——自动化洞察降低数据科学门槛

目前,大量零售企业依然缺乏针对数据科学技术的整合方式,错失了人群、商品、价格、竞争环境、周边环境、交通状况、店面属性等元素中蕴藏的大量尚未被完全解读的商业机会。

image.png

数据科学平台为零售企业赋予基础数据科学能力,让其能够首先在数据目录中将散乱的数据整理出结构和组合,之后在数据工厂中按照场景或项目目标,对数据进行处理、建模,输出数据集至数据目录或建模结果,在数据报表中实现可视化,最后在数据仓库沉淀。

4、新零售的未来潜能

新零售是“无法阻挡”的。其在“人”和“场”方面的能力已经形成,并将随着数据采集硬件的发展、数据捕捉与应用场景的丰富而逐渐增强。随着这一代消费者生活方式的改变,在“货”方面将涌现出更多类型的实物、虚拟物和服务作为产品出售;生产速度和个性化程度,都将超越当前的初级柔性供应链,在生产端3D打印技术的升级中实现突破。

此外,在人员赋能方面,目前数据科学的自动化仍然处于组件单一自动化的早期阶段。特征工程之前的步骤,依然主要由人工完成,尚未形成“策略库”。特征工程、模型选型、评估的单一组件自动化可以实现。后期迭代优化部分,能自动化实现模型的选择和调参,但建模部分依然需要大量人工干预。打破这一壁垒之后,自动化数据科学将真正实现大数据的赋能——降低工具门槛、人才门槛和预算门槛。更多小品牌也能受益于大数据和人工智能手段,大型企业和中小企业间的基建差距将缩小,中小企业将有更多机会跑出,竞争也将更为激烈。

新零售中的大数据和人工智能,作为底层建筑或者基础设施在升级改造产业,也有其“无能为力”之处。在定位其价值时,管理者应该接受其带来的洞察有其概率性和量化的不确定性,是决策的辅助者而非替代者。

看似普适的理论往往价值有限,只有那些敢于下水,拿到分析洞察之后拥抱实验文化的挖掘者,才会切实尝到数据带来的甜头。新零售也不是互联网企业的专属,所有的传统行业,都值得用互联网思维再思考一次,否则就会像大润发董事黄明端所言——“我赢了所有竞争对手,却输给了时代”。

TalkingData集合数据、产品和咨询的全域服务,拥有多年零售龙头企业合作实施落地经验,愿以企业价值为终极目标,携手企业以效率数字化为起点,提升横纵向生态聚合、业务经营能力、平台支撑能力与商业运营模式,以效益数字化为节点,全面提升数字化能力,稳固提高产出价值。

崔晓波出席爱分析中国大数据高峰论坛,总结改造行业的4大步骤

近日,TalkingData创始人兼CEO 崔晓波出席由北京爱分析科技有限公司主办的“2018·爱分析中国大数据高峰论坛”,并在会上做了题为数据智能应用和商业模式发展的演讲。

本次大会吸引了200多位行业精英与投资人共同参与,会议围绕着数据服务、大数据垂直应用、数据分析平台等多个领域进行了深入的探讨。

TalkingData创始人兼CEO 崔晓波

TalkingData创始人兼CEO 崔晓波在演讲中提到:“数据智能”在未来5到10年内是一个非常关键的概念。智能与数据相辅相成,如何运用好数据去创造智能,是企业需要在未来不断探索的方向。

同时,他又从五个方面剖析了 TalkingData 在大数据,特别是数据服务领域里的探索和思考。

一、中美市场的差异与联系

1、技术与基础设施差异

崔晓波认为:数据是链接中美智能应用的桥梁。

近两年来,TalkingData团队与世界最大的数据科学社区——Kaggle共同举办了两场活动。

第一场活动中,由TalkingData提供脱敏后的中国移动互联网行为数据集,邀请全球的数据科学家构建高准确率的人口属性预测模型。约有2600个团队参与了此次活动,共提交了约2万个模型。

通过研究可以知道数据的用法非常丰富,但既依赖于场景,又依赖于领域知识,因此中国真正缺乏的是针对如金融、地产、零售、互联网、工业等各种领域的相关知识,在这些领域里仍需要去长时间的探索。

目前,TalkingData又与Kaggle共同发起了名为:TalkingData 全球广告反欺诈算法大赛的活动。

TalkingData此次提供中国在广告反欺诈中遇到的大量相关问题和数据,而这正是很多国外的数据科学家难以遇到的。可以看出,中国在应用领域已经迈入前沿,但仍缺乏技术和基础设施。

2、数据安全上的差异

此外,中美在数据安全方面也有差异,崔晓波提到:真正拥有数据的企业不愿共享数据,而是选择垄断,因为很多技术问题尚未解决——如何安全的共享数据、以及数据合规等问题。

数据安全与网络安全情况迥异,企业IT系统由云、IDC以及内部网络构成,因此网络外面需要有一层边界,不能让黑客进来,但若该层边界都有问题,或企业出现内鬼,又如何保障数据安全呢?像 Facebook,其在数据安全上投入巨大,也出现了非常新的技术,例如可以通过网关看到企业所有的数据流动,信息如何从一点到另一点,又如何被使用。在这方面中国没有积累,技术上的差距有5到10年。

TalkingData 致力于解决这些问题,推出一套体系,在数据不流动的情况下也可以共享的解决方案。

业务的问题要回归技术,最终仍要用技术本身去解决问题,这是中国企业所欠缺的。因此崔晓波认为,中国下一阶段的数据服务需要突破技术的限制。

二、从实体物质化到虚拟数字化

崔晓波提到:“我们看世界的角度将从实体物质化转向数字虚拟化”。这将是未来的发展趋势。

未来是机器学习、深度学习的时代,Google 在2014年、2015年就将大量资源投入到机器学习研究中,因此在2016年,AlphaGo出现了。

AlphaGo将物理世界数字虚拟化,之后就可以用不断增长的计算机算法去加速学习过程,达到破局的效果。

但是在绝大部分领域还做不到这一点,因为如果一个机器或者一个算法不能帮人做决定,那么对这个行业,第一没有颠覆,第二没有价值。

自动驾驶技术达到L5(完全自动驾驶)就会颠覆了原有行业,但在L3以下就是辅助驾驶。在医疗领域,如果机器给出的结果真的能作为诊断结果,那也是颠覆,但是如果这个结果只能辅助人类诊断,其价值就有限。

要达到产生颠覆的阶段,所需要的时间远比我们想像的要长。

崔晓波认为,大家现在对人工智能过于乐观,未来几年会有所回落,但技术本身是非常具有价值的。

TalkingData创始人兼CEO 崔晓波

三、大数据通过四个步骤改造一个行业

根据TalkingData的经验,不管何种行业都可以从四个步骤去进行改造。

  • 业务数据化
  • 应用场景化
  • 流程自动化
  • 决策智能化

首先是业务数据化

根据以往经验,很多传统行业的业务流程没有真正数据化,业务好或不好都没有一套数据体系、指标体系、方法论体系去进行评估管理,而“业务数据化”就是各种大数据、商业智能等技术搅合在一起的过程。

其次是应用场景化

这里特指数据应用的场景化——在完成数据化后,考虑用何种方法提升业务,用大数据、算法模型、机器学习的方法去做应用场景化。

但目前该过程还是更多基于人工,基于分析师对业务的了解或个人经验,中国90%以上的企业还处于这样的阶段,包括互联网企业。

第三是流程自动化

已经有一些头部企业走到了这一步,比如TalkingData正在合作的某餐饮企业,其拥有50人的数据团队,非常重视数据预测——卖多少汉堡、卖多少咖啡。在TalkingData的帮助下,其预测准确率已经达到95%以上,整个过程需要运用大量的数据,包括天气、路况、客流、历史交易等等。

该餐饮企业可以据此优化第二天的排班、供应链情况,计算下来一年节省上亿元的费用。

第四是决策智能化

TalkingData也为企业选址提供帮助,因为对于下线零售商来说,店铺位置也就决定了这家店是否能成功的百分之七八十。例如TalkingData为某客户提供的选址服务,通过客户提供的三年历史收入数据,经过建模和优化,不仅能够准确预测历史收入,还能够进一步预测新店未来三年的收入,并且实现了自动化预测。之前该企业有200人的选址团队,现在只需要20人,这是TalkingData帮助优化的结果。

以上几步完成后,还有一些头部企业进入到了效益数字化的阶段,当企业完成智能化后,已经有了很强的数据能力,这时企业开始考虑能否将该能力开放给其他企业,将其做成一些指标甚至是智能APP,提供给供应商和下游,甚至将业务切出来,再覆盖产业链中的中小企业。这也是TalkingData正在研究的一个模式。

四、数据智能演进的三个阶段

从TalkingData角度来看,数据智能的演进分为三个阶段:

1)Data到Analysis:拥有大量数据,帮助开发者做分析,但从数据到分析只是浅层次重复,无法形成闭环和带来效益提升。

2)Data到Action:走不通第一阶段,尝试下一步,看数据能做什么,比如是否能优化广告和营销。这在国外可行,但国内很难,因为中国拥有太多的不透明。诺大的网络有很多不透明的算法,将数据的算法逻辑都抵消掉了。

3)Data到Data Science:现在越来越多的企业走到第三个阶段,将数据变成数据模型,证明数据在什么地方对商业有价值。对于企业来说,模型比人工更具有优势,运用之后后以前能做50个产品现在能做500个,这就是提升。

通过Data到Data Science形成闭环,依赖模型持续提升效果,现在是大家的共识。

五、数据服务价值长期才能显现

数据回报定律是指在指数级世界里,数据对商业价值的回报都是加速的,TalkingData服务的所有企业都有这个趋势。

第一年看不到数据对商业有特别明显的回报,而在第二、第三年后就很明显。

TalkingData服务的很多客户都是例证,通过数据真的可以每年节省上亿费用或带来非常可观的回报。

但目前也有很多数据企业急于求成,对客户承诺三个月或半年即可产生帮助,但其实很难做到,结果一定是两三年以后才能显现。

TalkingData发布“透明化”Ad Tracking合作伙伴平台

TalkingData发布“透明化”Ad Tracking合作伙伴平台

基于TalkingData Ad Tracking移动广告监测平台数据,2017年,移动效果广告点击总量相比2016年增长超过17倍;移动效果广告推广激活总量同比增长41.9%,点击量增速远超激活,利用虚假点击刷量情况依然不容忽视。

过去一年,TalkingData Ad Tracking一直致力于打击黑产刷量,陆续曝光了一批刷量渠道以及相关作弊手段,并上线发布相关反作弊产品模块。《制衡刷量“四大术”,TalkingData Ad Tracking上线高级版作弊防护功能》

在统计相关刷量数据时,TalkingData Ad Tracking团队发现了大量监测短链套用现象,导致媒体、广告主、代理商之间出现了明显分歧。为了保证渠道合作伙伴的权益,更准确的量化渠道价值,2018年4月,TalkingData发布了“透明化”Ad Tracking合作伙伴平台,针对性解决监测短链套用问题,赋能于合作伙伴,打造公开透明的广告监测生态。

TalkingData Ad Tracking合作伙伴平台

合作伙伴可以通过平台监控渠道下所有推广活动,并进行审核操作,一旦发现套用情况,可将其立即拒绝,Ad Tracking系统将即刻停止接收推广活动数据,避免出现渠道数据统计偏差;

TalkingData发布“透明化”Ad Tracking合作伙伴平台

Ad Tracking合作伙伴平台Demo产品图

在解决监测短链套用问题的同时,TalkingData Ad Tracking合作伙伴平台还向广大合作伙伴提供了流量基本数据查看权限,合作伙伴可以直接通过平台了解推广活动广告流量及转化数据,避免了繁复的授权过程,缩减人力成本

TalkingData Ad Tracking将秉持以“客户优先”的企业价值观,持续加强产品功能,与各大广告平台保持牢固的合作伙伴关系,继续优化数据挖掘算法,与广告主、媒体、广告网络、代理商等携手打造更加透明的广告生态,推动行业向更加良性的方向发展。

即日起,已入驻TalkingData Ad Tracking的合作伙伴即可申请开通平台账户,开通方式:

  • 合作伙伴技术沟通群(优先)
  • 24小时值班电话:4008701230
  • TalkingData 技术支持群:203585475

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁马骥近日出席QCon全球软件开发大会北京站,并在会上做了以《2018,你不知道的前端黑科技》为主题的演讲。

QCon全球软件开发大会由极客邦科技与InfoQ中国主办,致力于分享和交流新技术在行业应用中的最新实践,助力企业技术选型、业务升级与顺利转型。本次北京站大会规模再创新高,汇聚来自300余家企业的2500余名技术人,其中80%以上的参会者为资深技术人;担任出品人及演讲嘉宾的技术专家超过200名,90%的专家拥有10年以上从业经验,多来自国内外行业领军企业和创新技术公司。

TalkingData马骥出席QCon,分享前端黑科技

QCon北京2018

在Web技术发展的近20年来,有高潮也有低谷。当遇到瓶颈时,必须要用创新的思路及想法去解决,才能形成突破。在大会次日的“技术创新与前沿应用专场”中,TalkingData研发副总裁马骥以《2018,你不知道的前端黑科技》为主题,分享TalkingData近几年在大数据Web开发中一些创新和突破,包括绘制百万行的数据表格、位置大数据地图矢量绘制、Web端数据科学实践及Web端并行计算框架设计。

TalkingData马骥出席QCon,分享前端黑科技

TalkingData研发副总裁 马骥

平滑流畅的绘制百万行数据表格

马骥表示,根据产品需求,要求以表格形式绘制百万条超大体量POI数据显示。首先遇到的瓶颈是DOM渲染,当数据量达到一万两万、甚至十几万的时候,表格非常卡顿,且CPU占用率极高。

通过排查,发现问题在于所使用的VUE框架下getter和setter所做的数据双向绑定。当所绑定的数据集非常大时,性能就会出现问题。

TalkingData马骥出席QCon,分享前端黑科技

最后改为使用Object.preventExtensions、Object.seal、Object.freeze(扩展对象、密封对象、冻结对象),解决了性能问题,实现了百万行表格的平滑展现,良好承载了对地图和表格之间很重的检索需求。最终效果是,当击右侧一行数据,对应的地图POI点可以高亮显示;反之,点击地图上POI点要显示在数据表格里对应的数据,交互体验超出预期。

Web端数据科学实践

1、自动化配色

马骥认为,自动化是web端很好的数据科学场景。在TalkingData去年开源的地图可视化组件InMap中,对通过自动化提升效率做了重点尝试。据分析,很多数据分析师要花30%的工作量去调整数据可视化的样式,比如调整地图的配色上,这对非设计专业的人来说非常痛苦。如果能提供自动化的配色方案,则会能在很大程度上降低这一成本。

TalkingData马骥出席QCon,分享前端黑科技

在TalkingData的实践中,要先对数据形态进行判断,用四分位以及平均数初步判断数据形态的分布和趋势,用大数据评估是指数型还是线型。然后用色谱通过获取面积等分点模型获取设置区间,最后通过自定义自动化完成自动配色。

2、异常数据检测

大数据永远都会有异常,而数据能否使用,需要进行检测,最基础的就是数据类型的检测。

马骥分享,TalkingData通过统计学模型——四分位的法则去做相对比较宽松的验证,比如四分位、上四分位和下四分位之间的三倍。

TalkingData马骥出席QCon,分享前端黑科技

针对其中最为复杂的异常位置数据检测,马骥带领的团队查询相关论文,将Python版本翻译成JavaScript版本实现,原理是计算两点一线的距离,当距离越大时则密度越低,当距离越小则密度越大,这样就可以将异常点计算出来。

Web端并行计算架构设计

马骥认为,web端的密集型计算是可视化的挑战,其瓶颈在于JavaScript本身,因为JavaScript是一个单线程语言,这就导致一方面CPU的利用率偏低,另一方面密集计算执行需要等待。

在TalkingData InMap的架构实践中,通过增加前端能力,通过前后端协同提升整体性能,进而将服务器端的很多能力转移到客户端去实现,使客户端也具有计算能力,实现业务逻辑和计算能力逐渐上移。

TalkingData马骥出席QCon,分享前端黑科技

InMap架构图