:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Posts Categorized / Data

cialis erfaring cialis i norge hva er kamagra cialis efeitos secundarios cialis bula viagra effekt viagra norge viagra på nett viagra nettbutikk viagra infarmed levitra comprimidos cialis uten resept cialis pris levitra eller cialis kamagra gel comprar viagra farmacia
  • Dec 04 / 2017
  • 0
Data

锐眼发现 | 高质量数据集哪里来?机器学习公司的十大数据搜集策略

作者:Moritz Mueller-Freitag

原文:10 Data Acquisition Strategies for Startups

译者:笪洁琼 万如苑 一针

转载于:微信公众号「大数据文摘」( ID: BigDataDigest)

TalkingData数据科学家王小辉点评:

我们知道现在对于机器学习,特别是深度学习来说,高质量的训练数据集是基础,配合合适的模型和优化算法,在很多领域,可以比人类更快更好地完成一些任务。

对于有监督类型的学习来说,训练数据的高质量体现在质和量两个方面,数据和标签越准确越丰富,对同一个模型来说,就越能获得泛化能力更好的结果。前一阵子的 AlphaGo Zero 采用 ResNet 模型和强化学习靠自我对弈,不需要人类棋手对弈数据的前提下,获得了相当好的结果,棋力甚至超过了今年年初战胜柯洁的 AlphaGo Master。但是这并不意味着数据的重要性降低了,围棋是一个信息完全的游戏,虽然搜索空间很大,但是规则明确,满足这种条件的有意义的现实问题是比较少的,AlphaGo Zero 在围棋上的成功很难移植到其他的领域。当然它本身显示了强化学习的强大能力,在解决类似问题时,合适的模型和算法可以替代数据本身提供的参考价值,强化学习带来的自我学习能力在针对问题优化 设计的模型上可以比较快速地学习到解决相关问题的能力。

AlphaGo Zero 这种不依赖人类数据就在解决一个特定问题上取得巨大成功的例子,又一次引起了人们对 AI 摆脱人类甚至威胁人类的担忧,但其实不必,推荐大家阅读 AlphaGo Zero 横空出世引爆业内,AI 大牛对此怎么看?  整理的 Facebook AI 专家田渊栋、Face++ 首席科学家及 ResNet 作者之一孙剑博士、周志华教授等机器学习界知名专家的解读。

我们知道现在深度学习在计算机视觉、语音识别、自动翻译、NLP 和基于时序信号数据的预测等领域取得了很大的进展,这些相关的技术组合起来,可以解决像图像视频自动理解、无人驾驶、ChatBot 以及智能助理等现实问题。而背后的重要原因之一,就是大量的高质量数据集被整理出来,有公开的也有一些大公司私有的。像 ImageNet、等对 Image Classification,MS COCO 等对于 Object Detection,CityScape 等对于 Semantic Segmentation 以及各种其他面向特定领域的数据集(awesome-public-datasets)。这些动辄几十 GB 的数据集基本都是耗费了大量的人力和财力创建的。AI Challenger 背后耗资百万的数据集标注 这篇文章介绍了今年国内规模最大的 AI 算法大赛 AI Challenger 背后的数据集标注的背景,可以让我们在一定程度了解数据标注的难度和必要性。

高质量数据集哪里来?机器学习公司的十大数据搜集策略

长期以来,在机器学习中不合理的数据利用效率一直是引起广泛讨论的话题。也有人认为,曾经阻碍人工智能领域取得各种重大突破的,并不是什么高深的算法,而是缺乏高质量的数据集。然而讨论的共同中心是,在当下最前沿的机器学习方面,数据是一个相当关键的组成部分。

获取高质量的初始数据对于那些运用机器学习作为他们业务核心技术的创业公司来说是十分重要的。虽然许多算法和软件工具都是开源和共享的,但是好的数据通常是私人专有而且难以创建的。因此,拥有一个大型的、特定领域的数据集可以成为竞争优势的重要来源,尤其是如果初创公司能够启动数据网络效应(在这种情况下,更多的用户→更多的数据→更智能的算法→更好的产品→继续带来更多的用户)。

因此,对于机器学习创业公司必须做出的一个关键战略决策是如何建立高质量的数据集来训练他们学习算法。不幸的是,初创公司往往在一开始只有有限的或没有标签的数据,这一情况会阻碍创始人在构建数据驱动的产品方面取得重大进展。因此,在雇佣数据科学团队或建立昂贵的核心基础设施之前,从一开始就值得探索一套数据收集策略。

创业公司可以通过多种方式克服刚开始进行数据采集时遇到的棘手的问题。数据战略/资源的选择通常与商业模式的选择、创业公司的关注重点(消费者或企业、横向或纵向的)以及融资情况密切相关。以下简单列出几种并不互斥的策略,为广泛的可用方法提供了一种大体框架。

策略#1:手动工作

从头构建一个良好的专有数据集基本意味着要将大量的前期工作和人力资源投入到数据获取上,还要完成大量无法批量完成的的手动工作。在初期借助人力的创业公司的例子很多。例如,许多聊天机器人初创公司(通过改变对成功的定义和高职工流动率吸引求职者)雇佣真人来做“人工智能培训师”,让他们手动创建或验证机器人所说的话。就连科技巨头也采取了这种策略:Facebook M(一个最新内置在Facebook Messenger中人工智能驱动的数字助理)的所有回应都是由一个承包商团队审查和编辑的。

使用人力来手动标记数据点可以是一个成功的策略,只要数据网络效应在某个时间点生效,这样所需要的人力就不再以与用户增长相同的速度增加。只要人工智能系统进步的速度足够快,未指明错误就会出现地不那么频繁,相应地,执行手工标记的人的数量也将会减少或保持不变。

适用对象:几乎每一家机器学习创业公司

例子:

  • 一些聊天机器人创业公司(包括Magic、GoButler、x.AI和Clara)
  • MetaMind(用于食品分类的手工收集和标记数据集)
  • Building Radar(员工/实习生手动标记建筑物的图片)

策略#2:缩小问题范围

大多数创业公司都会尝试直接从用户那里收集数据。

挑战在于说服早期用户在机器学习的好处完全发挥作用之前保持使用该产品(因为首先需要数据来训练和微调算法)。

解决这个自相矛盾的问题的方法之一,是彻底缩小问题范围(如果需要的话,可以在之后再扩大)。正如Chris Dixon所说:“你所需要的数据量与你试图解决的问题的广度有关。”

Source: x.ai

Source: x.ai(来源于X.AI)

这样缩小问题范围的好处再一次体现在聊天机器人上。这一领域的创业公司可以在两种市场策略之间做出选择:他们可以建立水平助手——可以帮助解决大量问题和回应即时请求的机器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者,他们也可以创建垂直助手——能出色完成一项具体、明确的任务的机器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。这两种方法都是有效的,不管如何选择,只要缩小了问题的范围,数据收集对创业公司来说都要容易得多。

适用对象:经营垂直整合业务的公司

例子:

  • 高度专业化的垂直聊天机器人(如 x.ai, Clara or GoButler)
  • Deep Genomics(利用深度学习来分类/解释基因变异)
  • Quantified Skin(使用客户自拍照来分析一个人的皮肤)

策略#3:众包/外包

除了让员工(或实习生)来手动收集或标注数据,创业公司也可以通过众包来达到目的。像Amazon Mechanical Turk 或CrowdFlower 的平台提供了一种方法,可以利用数百万人的在线劳动力来清理混乱和不完整的数据。例如,VocalIQ(2015年被苹果收购)使用亚马逊土耳其机器人为其数字助手提供数千个用户提出的问题。员工也可以通过雇佣其他独立的承包商来外包(就像Clara 或Facebook M所做的那样)。使用这种方法的必要条件是可以清楚地解释这个任务,而且它不至于太长或者很无聊。

另一种策略是鼓励公众自愿提供数据。一家总部位于巴黎的人工智能创业公司Snips就是一个例子,该公司利用这种方法获得特定类型的数据(餐厅、酒店和航空公司的电子确认信)。和其他创业公司一样,Snips使用的是一种游戏化的系统,用户可以在排行榜上进行排名。

适用对象:可以很容易地执行质量控制的情况

例子:

  • DeepMind, Maluuba, AlchemyAPI,和其他很多人(见这里see here)
  • VocalIQ(用土耳其机器人帮助系统学习人们如何说话)
  • Snips (要求人们无偿为研究提供数据)

策略# 4:引导用户自发参与

有一种能够自成一类的众包策略,是通过恰当的方式引导用户自发地产生数据。这种方法中很重要的一步是设计能够为用户提供恰当激励,使其主动将数据结果反馈给系统的产品。

那些在自家许多产品中都使用了这种方法的公司里,有两个十分典型的例子:谷歌(搜索引擎、谷歌翻译、垃圾邮件过滤器等等)和Facebook(用户可在照片中给朋友加标签)。用户通常不知道他们的行为在为这些公司提供免费的标签数据。

机器学习领域的许多初创公司都从谷歌和Facebook中汲取了灵感,他们创建了具有纠错功能的产品,明确地鼓励用户纠正机器错误。这方面特别出名的是reCAPTCHA 验证码和Duolingo(都是由路易斯冯创立的)。其他的例子包括Unbabel,Wit.ai 和 Mapillary.

适用对象:以消费者为中心并且有稳定用户交互的创业公司

例子:

  • Unbabel(用户纠正机器翻译的社区)
  • Wit.ai (为用户提供了用于纠正翻译错误的面板/api)
  • Mapillary (用户可以纠正机器生成的交通标志检测)

策略# 5:开发副业务

一个似乎特别受计算机视觉创业公司欢迎的策略是有针对性地向用户提供一个免费的、特定领域的手机app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收购)都采取了这一策略,它们向用户提供能够为自己的核心业务收集额外图像数据的照片应用。

Source: Clarifai

Source: Clarifai(来源于Clarifai)

这个策略并不是完全没有风险(毕竟,成功开发和推广一个app是要花费时间和金钱的)。 创业公司还必须确保他们创建了一个足够强大的使用案例,能让用户乖乖交出他们的使用数据,即使在开始时缺少数据网络效应的优势。

适用对象:初创企业/横向平台

例子:

  • Clarifai(Forevery,可用来发现新照片的应用程序)
  • HyperVerge(Silver,可用来组织照片的应用程序)
  • Madbits(Momentsia,可用来拼贴照片的应用程序)

策略#6:数据陷阱

另一种收集有效数据排放的方法是构建Matt Turck所谓的“数据陷阱”(Leo Polovets已经给了这个策略一个不太可爱的名字:“特洛伊木马收集数据法”)。 目标是创造一些即使在没有机器学习的情况下也有价值的东西,然后以收集数据的成本出售(即使其中的边际效益很小)。 与之前的策略形成对比的是,构建数据陷阱是创业公司商业模型的核心部分(而不仅仅是一个副业务)。

数据陷阱

一个相关的例子是Recombine,一家临床基因检测公司,通过提供生殖力测试服务来收集DNA数据,然后可以将DNA数据用机器学习进行分析。 另一个例子是BillGuard(被Prosper于2015年收购),一家提供了一个帮助信用卡用户争取“灰色费用”的移动端app的创业公司。该应用程序帮助BillGuard获得大量之后还可以用于其他目的欺诈数据。 另一边Telsla也正在使用这个策略。作为拥有超过10万辆(配有传感器的)车辆正被用于行驶的公司,Tesla目前正在建造最大的自动驾驶训练数据集(每天可以收集比Google更多的自动驾驶里程)。

适用对象:经营垂直整合业务的企业

例子:

  • Recombine(提供生育力测试来收集DNA数据)
  • BillGuard(提供移动应用程序来收集欺诈数据)
  • Tesla(当驾驶员使用自动驾驶功能时收集数据)

策略#7:公开可用的数据集

一个许多创业公司都屡试不爽的策略是在公开来源中挖掘数据。像“普通抓取”这样的网络存档包含多年网络爬虫收集的免费原始数据。另外,像Yahoo或Criteo这样的公司已经向研究界发布过了大量数据集(雅虎发布了13.5 TB的未压缩数据!)。随着最近政府公开数据库的蓬勃发展(由奥巴马政府引领),越来越多的数据来源正在免费公开。

几家机器学习初创公司已经在利用公共数据了。当Oren Etzioni开始Farecast(由Microsoft于2008年收购)时,他使用了在旅游网站抓取信息而获得的12,000个价格观察样本。同样,SwiftKey(由Microsoft于2016年收购)在早期收集并分析了数十亿网页爬虫数据,来创建它的语言模型。

适用对象:可以识别相关公共数据集的初创公司

例子:

  • Farecast(第一版从旅游网站爬取的信息)
  • SwiftKey(抓取网页文字来创建语言模型)
  • The Echo Nest(每天爬取数百万个音乐相关网站)
  • Jetpac(将公共Instagram数据用于其移动应用程序)

策略#8:第三方数据许可

访问第三方数据的另一种方法是通过外部数据提供者提供的API或通过在第三方移动应用程序中实施SDK来抓取数据(理想情况下是终端用户同意)来得到许可。 在这两种情况下,创业公司都要支付另外一方来处理为某个目的而生成的数据,然后应用机器学习从该数据中提取新价值。

Farecast和Decide.com(均由Oren Etzioni创立)已经成功地实施了这一战略。 开放的数据平台,如Clearbit或Factual是外部数据提供者的典范。 在使用第三方数据来挖掘预测信息的公司中,也有几家对冲基金和算法交易公司(正在使用非传统数据集,如Orbital Insight或Rezatec等创业公司的卫星数据)。

适用对象:依靠第三方数据的创业公司(如行业数据)

例子:

  • Farecast(通过航空公司的数据使用许可来预测机票价格)
  • Decide.com(通过电子商务的数据使用许可来预测价格)
  • Building Radar(使用ESA卫星图像来监测建设项目)

战略#9:与大企业协作

对于初创企业,数据提供者可能是提供相关数据处理权的大客户。在这个策略中,创业公司向客户出售问题的解决方案(如减少欺诈),并使用客户的数据训练其学习算法。 在理想情况下,从一个客户或实例中做的数据学习可以转移给所有其他客户。 例如在测谎领域的Sift Science和SentinelOne。

采用这种方法的难点在于如何在前期做好谈判,确认通过数据学习到的信息都归创业公司所拥有,而数据本身仍是顾客的资产。 鉴于大型公司通常具有严格的规则,并且对共享专有数据非常敏感,这是很容易产生分歧的地方。

适用对象:企业创业公司

例子:

  • Sift Science(使用公司特有数据查找独特的欺诈信号)
  • SentinelOne(销售终端保护软件的网络安全初创公司)
  • Skytree(开发用于企业使用的机器学习软件)

策略#10:小型收购

Matt Turck列出了许多公司的收购方式,以获得特别相关的数据集(类似于收购有价值的专利组合)。 例如,IBM Watson在2015年进行了四次与数据有关的收购,将其卫生部门转变为世界上最大和最多样化的健康相关数据库之一。

由于这种方法需要资金支持,所以可能只对于拥有充裕资金的创业公司来说是可行的。

适用对象:(后期)有足够资金的创业公司

示例:难以确定(数据是收购的唯一原因)

很可能还有其他数据采集策略在这里没有提到(如果是,请给我留言)。除此之外还有几个初创公司可以用来解决数据问题的算法技巧(例如传输学习,MetaMind使用的一个技术)。

无论您采取何种策略,关键信息是:获取和拥有大型特定领域的数据集以构建高精度模型可能是创业者一开始就需要解决的最难的问题。在某些情况下,它涉及到找一个能快速解决问题但不是长久之计的方案,比如雇佣人类来假装是人工智能(像许多聊天机器人创业公司那样)。 在其他情况下,它要求企业大大地延长免费周期,限制测试版的公开发布,直到机器学习的好处开始发挥作用而且客户愿意为此付费。

这些策略和例子来自与企业家们的谈话以及几个博客文章,其中包括内森·贝纳奇(Nathan Benaich),克里斯·迪克森(Chris Dixon),弗洛里安·杜特奥(Florian Douetteau),利奥·波洛维奇,马特·图克(Matt Turck)。

  • Nov 28 / 2017
  • 0
Data

锐眼发现 | 做数据分析不得不看的书有哪些?

作者:Han Hsiao

转载于:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

一、数据分析入门:

电子工业出版社的经典书目系列,从数据分析基本步骤开始、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧一一讲到。图比较多,适合入门。

推荐理由同上,适合入门者的经典教材。

R是属于GNU系统的一个自由、免费、源代码开放的软件,用于统计计算和统计制图。这本书从实用的统计研究角度逐例分析R在数据处理、模型构建、以及图形操作上的由浅入深的结合,堪称经典。

作者是华盛顿大学理论物理学博士。这本书是数据分析的经典一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。

作者是Data Miners的创办人,有二十多年的营销和客户关系管理结合数据挖掘的经验。详细介绍了作为一个数据挖掘团队需要的知识体系,包括数据库、SAS使用、统计学、机器学习、数据可视化、如何访问用户收集需求、如何写论文与沟通等等。有条件的建议看英文原版。

入门五星推荐。里面很多图表实例,手把手教你如何EXCEL画图,对各种知识点(平均值,模式,中值,方差,标准偏差)的讲解相当的到位,比起大学里的各种课本靠谱。

先把这些花时间啃啃,数据分析的理论部分就基本入门了,根据实际情况还需要结合你的业务需求来进行系统的学习。

二、数据分析进阶:

作者Cathy O’Neil是哈佛大学的博士,MIT的数据博士后,曾今作为一名Quant在对冲基金D.E. Shaw 工作,目前是一家纽约初创公司的Data scientist 。这本书需要有一定的编程和理论基础,作为入门教材来说有点难,虽然只有400来页,但是涉及的知识点很全面。每一章节的核心内容都附有编程案例,R/Python/Shell三种语言任君挑选。

Python数据分析必看,适合入行不久的数据分析师。作者有多年的Python数据分析工作经验,对各种Pyhon包iPython,NumPy,pandas,matpotlib等有着很深的理解。看完这本,敲完代码,Python数据分析就算入行了。

很多牛人为之作序,数据科学如何与商业结合,相信这本书会给你一些启发。

2016年6月出版的,500页保质保量,作者(Jake VanderPlas)是华盛顿大学电子科学研究所的高级数据科学研究员,研究领域包括天文统计学、机器学习和可扩展计算。书的前半部分介绍了用于数据分析和一般的科学计算的基本Python库,后面从实际应用的角度使用Python库scikit-learn开始机器学习实践。适合有一定Python基础人(或者R基础),并且想学习如何使用Python进行数据分析的人。

作者Cole Nussbaumer Knaflic,私募分析师,前Google人力分析团队总监。本书展示了如何高效率展示量化资讯,如何用丰富的资料讲故事。Google内部的数据可视化课程讲师,之前也在Maryland Institute College of Art兼职讲师。如果你想知道如何以图叙事,这边好书不容错过。

OK,这几本够看一阵了,有时间再更新。

  • Nov 27 / 2017
  • 0
Data, Tech

锐眼洞察 | 利用你自己的数据资产库进行数字化转型(翻译)

作者:Gary Orenstein 

原文:Using Your Data Corpus to Further Digital Transformation

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源与译者!

译者注: 这篇文章整体解读了数据资产库对于业务的重要性,尤其是支持实时操作的数据资产库。MemSQL本身是基于内存的数据库,因此其性能非常适合做实时的数据科学和建模。

简介

我们每天都会看到新产生的数据流,从新的移动应用到新连接的设施和汽车以及新的从全世界各个角落获取信息的业务应用。我们的世界已经充满了数据。

世界最具价值公司的估值飞涨和驱动他们业务增长的数据,是这一显著趋势的最好证明。我们见识了Apple与AppStore、Google与其搜索的历史、Facebook与其社交图谱以及Amazon和其每个客户的丰富购买历史。这几家公司都找到了产生和变现他们数据资产的有效的方法。  

在更广泛的行业领域,如何获取数据、决定哪些数据有用以及哪些数据是杂质并且使之具备可操作性,仍旧是我们这个时代典型的技术和业务挑战。 在不同的行业领域有很多公司已经具备数据收集和分析模型,但现在是时候去评估这些手段能够如何有效的影响业务。

开发一个数据资产库

一个企业的数据资产库可能来自于不同的来源:

  • 现存的内部数据资产: 可能是企业内部已经存储的数据,这些数据可能开放给全公司访问,可能仅限一些个人或者团队访问。今天很多公司寻求将历史数据放入到数据湖中,尤其是将历史数据放入到低成本的存储中,使得这些数据可以被公司内部更多的人访问。
  • 现存的外部数据资产:并不是每个数据资产库都仅有内部数据构成。比如Google最早是通过扫描web网站来建设自己的数据资产库。在金融领域的另外一个选择是购买相关的历史数据集。
  • 新的数据流:未实现和未开发的数据流比较容易获取。可以通过收集新的数据或者加速数据收集来得到。例如,一个大零售商把现存的web统计从隔夜批量处理改为实时流式处理,这使得商品经理可以即刻看到相关信息并且做出决策而不需要等一个晚上。

评估数据资产库的价值

保留数据并不是免费的,并且具有固定和边际成本。然而,保留数据的成本通常远远小于数据带来的业务价值。例如,在Amazon S3上存储用于日常访问的前50T数据每个月花费1150美元,对于不常访问的放在Glacier存储上的花费仅仅200美元。当然,上传和下载也有成本,并且会放大存储花销,但是一般认为存储是相对便宜的。 更大的问题是对数据的利用。在公司内进行一个数据用户与组成的快速调研可以帮助我们回答这个问题。

大部分大公司有几十个甚至几百个商业智能分析师。 他们能从更多数据、新的数据流以及更新鲜的数据中获益吗?答案通常都是肯定的。

从数据资产库产生价值

数据资产库的价值是通过新的洞察和应用来产生的。一个简单的例子是Google利用搜索给出的建议。当Google吸引了大量的web搜索用户时,便可以对最频繁的请求构建一个数据库,当你在Google进行搜索时,它可以自动的利用这些数据进行补全。

clipboard-4.png

图1:Google的“自动补全”功能

金融领域案例

每个大型的金融机构都需要追踪财产从而确保其操作遵循公司或者政府的合规要求。尤其关键的是,如果银行发现其在合规范围内,就可以做更具野心的投资,从而获取更高收益。如果它已经接近或者触碰合规底线时,银行则必须进行相对保守的投资,而获得较低的收益。

如果没有一个数据资产库能够产生这些报告,银行无疑是在闭着眼睛飞行。通过将不同的系统中的数据放到一个大的实时数据仓库,银行得到了能够实时观察所有操作的一组透镜,确保信息是当日最新的而不是隔夜的。

利用实时反馈来达到数字化转型

最成功的公司采用数据资产库,并且结合数据科学和机器学习来驱动对数据资产库的洞察,如图2:

clipboard-3.png

图2:将应用与数据科学结合用于实时机器学习。来源:MemSQL

 

将应用和数据科学结合在一起进行实时机器学习

最初从数据资产库获益的是应用——技术领域的“执行者”。这些应用会产生一定量数据,并且在数据和应用程序之间有固定的交互。 随着应用和设备产生更加大量的数据,我们让“操作者”将数据科学应用在从企业软件到移动应用的一切地方以提高体验。当操作者和执行者结合在一起时,可以利用实时机器学习去驱动新的知识回流到业务。但也只有在反馈闭环被开发出来用于丰富体验时才能起效。

clipboard-2.png

图3:为数据资产库构建一个反馈闭环来驱动数字化转型。来源:MemSQL

用数据资产库做更多的事情

毫无疑问数据是商业的新燃料。企业现在需要通过可以提供数据变现能力的解决方案来应对数据的挑战。考虑到这一点,企业架构师应该考察:可以存储大量的历史数据和实时数据的数据库和数据仓库、可以提供实时数据注入以及数据查询的数据存储 、可以结合实时机器学习评分和嵌入机器学习功能到数据存储的解决方案、具备捕捉事件的事务处理能力和实时洞察的分析能力的数据存储。这样可以用更少的系统来提供完整的解决方案。

我们会看到在未来一段时间数据资产库会备受关注。正如一位杰出数据科学家同时也是一家AI创业公司CEO指出的:“我们将需要一个更大的资产库。”  

 

clipboard.png
  • Nov 22 / 2017
  • 0
Data, Tech

锐眼洞察 | 数据目录应该拥哪些能力?

作者:TalkingData数据产品经理  史忠贤

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

从去年开始,一直在思考什么样的数据目录才能满足数据管理的需求,但是由于没有真正的深入到数据治理和数据业务流程中,一直没有比较清晰的思路。今年在梳理标签数据、做数据标准化等过程中,才深刻的认识到数据的杂乱和无序会严重浪费计算和存储资源、增加沟通成本。资源浪费主要体现在,不同人员重复生成一些数据集。沟通成本增加主要体现在,数据和数据规格说明的分离,以及数据集的问题和知识没有沉淀。

针对以上问题,结合当前数据治理中数据目录使用情况和行业调研,对数据目录应有的能力有了更加清晰的认识,总结如下:

一、数据的连接和发现能力

做数据治理就需要清晰的知道公司有哪些数据,通过人工梳理的方式显然已经跟不上数据增长和变化的速度。所以,一个数据目录最基础的能力,就是可以连接公司拥有的多种数据源(如:HDFS\MySQL\Hbase…),并且可以定时的监测新生成的数据,在数据目录中根据规则自动注册为数据集或更新数据集状态(如:对关系型数据库新产生的表注册为数据集,HDFS分区格式数据只更新当前数据集的容量大小)。

二、元数据管理能力

  1. 数据集基本信息:包括数据集的名称、标签、负责人以及存储详情的变动趋势。
  2. 字段描述信息:字段的物理存储类型、字段的业务类型(地址、IP地址等)、字段的描述信息、整个schema的版本控制(尤其对SDK采集到的数据有用)
  3. 数据规格:数据规格是数据资产部门或者数据负责人维护数据说明的页面,包括数据生成方式、数据使用范围、主意事项等。提供数据规格编写能力,方便版本控制,用户可以按照时间线来查询数据规格。

三、数据profile能力

  1. 数据集的条数、空值等。
  2. 针对枚举字段枚举值的统计,针对数据类型字段数值分布范围的统计。
  3. 用户自定义策略的统计。提供用户自定义界面,可以组合各种规则统计数据集中满足条件的数据条数。
  4. 针对各类指标的时序可视化展示。数据的profile有了时序的概念,才能做一些数据趋势的分析,以及监控和报警。
  5. 可配置的数据集profile计算频率。不同的数据集,数据量差距很大,针对MySQL的一个小表profile可能秒出,ETL产生的天库一天的数据只能定时运行了。

四、协作和分享能力

  1. 协作能力:主要体现在数据集相关问题的处理上面。使用数据集时遇到的问题可以在系统中提问,问题会自动转向数据集负责人,数据集负责人需要在系统中答复。所有问题和回答应该以时间线的方式组织,方便其他数据集使用人员的查阅和检索。
  2. 分享能力:关于某个数据集的所有信息,不再以口口相传的形式进行,将数据集及相关信息分享给使用者,使用者可以看到数据集的元数据等详情。

五、检索筛选和用户自组织能力

  1. 检索筛选能力:如果数据目录没有强大的检索能力,系统中数据集的信息和沉淀的相关知识就不能实现其价值,也不能促进系统的良性循环。检索和筛选的内容包括:数据集名称、标签、描述、字段相关信息、问答内容、数据规格详情等。
  2. 用户自组织数据集的能力:不同用户使用数据集的场景不一样,所以组织方式也会不一样。每个用户可以按照自己的理解和需求组织自己的数据目录,方便用户的使用。同时,不同用户根据不同场景对数据集的组织方式也是一种知识,可以沉淀。

六、安全和开放能力

  1. 权限和审计:为数据集的访问提供权限控制。不同的用户在不同的时间有不同的权限,所有用户对数据集的操作都需要做记录。
  2. 开放能力:数据目录应该提供数据集的访问接口,可以支持内部数据探索工具、数据ETL工具的调用,可以支持外部客户的调用和加工。

附总体能力脑图:

数据目录.png

  • Nov 21 / 2017
  • 0
Data

锐眼洞察 | 大数据实施为什么需要方法论指导?(翻译)

作者:Kayla Matthews

原文:Why You Need A Methodology For Your Big Data Research

译者:TalkingData副总裁 高铎

本译文禁止商用,转载请注明来源与译者!

译者摘要:

  • 靠谱的大数据方法论指导,能让企业在实施大数据方案时少走弯路;
  • 方法论实施的核心,是能确定收集和整合的数据,以及模型和工具,能够创造商业价值;
  • 实施大数据方案时,既要考虑效能和生产力,也要考虑法律和道德问题。 

靠谱的研究方法可以帮助大数据管理团队收集更好、更智能的信息。利用大数据进行分析的企业,尤其是有靠谱研究方法论指导,其盈利能力和生产效率普遍比竞品高出5~6%。

企业可能认为大数据能大幅提高效率,而立即寻求扩大大数据管理的能力和范围,但如果没有适当的方法论支持,大量时间和金钱的投入很可能无济于事。很多大数据战略失败的公司,都是缺乏关于大数据、分析以及工具之间如何相互作用的规划。

在实施大数据方法论时,一个谨慎的方案应该包括数据科学家、工程技术专家、业务管理人员和高层管理人员,这些角色结合在一起,用他们各自的专业知识来制定全面的计划。项目启动和团队选择是方法论得以成功实施的关键,因为它强调了企业必须做出的决策,以及这些决策如何影响最终目标,以实现更快的增长或更高的利润率。

一个靠谱的大数据方法论,应该明确所处理领域理想的分析工具和模型,确定要集成哪些内外部数据,并制定一个组织架构以适应数据流的目标。

收集和整合数据

大数据是战略决策的生命线,可能会影响公司是否会盈利或遭受损失。特别是在当今数字时代,很多企业都淹没在大量数据里面,挣扎着去寻找相关性。由于社交媒体平台的大量出现,如今的数据量特别巨大,这些平台提供了对客户行为数据的洞察。

搜集数据和了解哪些数据是优先考虑因素,是建立方法论的重要方面,它可以指出在哪些新数据能力方面需要进一步投入。短期选择可以是把问题外包给外部数据专家,虽然这可能是昂贵的,对有些企业来说甚至要求过高。在企业内部,可以通过将交易数据和其它数据分开来整合分析报告,也可以尝试实施一些数据治理标准,以避免在准确性和一般合规性方面的失误。

利用分析模型和工具

虽然实施方法论时,数据的整合是至关重要的。但是如果没有高级的分析模型来帮助优化结果并根据这些数据做预测分析,那么整合就没有多大价值。方法论是要确定模型如何创造商业价值,譬如关于客户购买历史数据,如何影响他们通过电子邮件收到的折扣类型。

另外,方法论要能利用分析模型来帮助企业解决数据存储的优化问题。从有意义的数据中分离出多余信息的模型,可能会触动企业的底线,会对生产结果造成巨大的影响。将数据集成到日常流程和业务活动中的工具,可以为许多功能提供一个易于理解的界面,无论是员工时间表,还是决策提供哪种优惠券。

而行业将关注其核心领域的数据。如运输公司比店面更依赖GPS和天气数据,而医院则需要有关药物功效的数据。无论如何,分析大数据的关键点是最重要的,尤其是分析它们如何与日常生活相互作用。

实施方法论的挑战

有效的大数据研究方法论将有助于解决企业面临的一些常规问题,尤其是将投资重点与公司战略结合考虑的时候,重点将聚焦在业务参与与成本之间的平衡。

如果能检测异常数据集,将会提高前端业务参与度和总体效率,有助于提醒需要手动参与分析的研究人员(优化预先存在的机器学习算法和自动交易数据)。大数据研究的方法论应该能准备好时刻识别异常,并制定计划如何去解决这些异常。

此外,无视负责任的大数据研究方法论,可能会陷入法律和道德问题,因为其涉及数据共享和用户数据的使用,特别是在社交网络里面。因此,方法论应该在考虑效率和生产能力时,也要考虑道德。

大数据方法论研究中考虑相关道德问题,通过相关分析工具将数据收集并整合到有组织的系统里面,可以更合规地提高企业的生产效能和盈利能力。

 

  • Nov 21 / 2017
  • 0
Data

锐眼洞察 | Azure Databricks技术概览(翻译)

作者:Matei Zaharia & Peter Carlin 

原文:A Technical Overview of Azure Databricks

译者:TalkingData研发副总裁 阎志涛

本译文禁止商用,转载请注明来源与译者!

译者注: 从前年就从Databricks的一些朋友了解到Databricks在构建基于Spark的云平台。如今这个世界是云的时代已经是个勿容置疑的趋势。传统的IT厂商都在做云端的转型,比如Oracle已经决定将自己安身立命的Oracle数据库都变成云端的服务了。Databricks作为Spark的核心贡献者,其商业模型势必是要走到云端提供端到端的大数据平台。这篇文章就是关于Databricks和Azure Cloud的深度集成的Azure Databricks。回到我们自身,我坚信我们的未来也是与云化密不可分的。

今天,我们在Microsoft connect(); 介绍了Azure Databricks,一个结合了业内最好的Apache Spark分析平台和Azure Cloud的能力的令人兴奋的新的服务。通过Databricks和微软的紧密的合作,Azure Databricks带来了在其他的云平台上都不具备的独特的价值。这篇博客将会介绍这个新的技术以及通过Azure上的Databricks给数据科学家、数据工程师和业务决策者带来的新的能力。

Apache Spark + Databricks + Enterprise Cloud = Azure Databricks

当你在云上管理大量的数据的时候,你给预测分析、AI和实时应用带来了无限的可能。在过去的五年中,构造这些应用选择的平台是Apache Spark,由于有全球数以千计的企业组成的庞大的社区,Spark使得实时的运行大规模的强大的分析算法成为可能,从而能够支持进行业务洞察。然而,大规模的部署和管理Spark仍旧是个挑战,尤其是对于有大量的用户并且需要很强大的安全要求的企业客户。 进入Databricks,公司是2013年由启动Spark项目的团队创建的。Databricks提供针对云平台进行优化的端到端的托管式的Spark平台。通过一键部署、自动弹性伸缩、以及优化的可以在云上以10倍到100倍提高性能的Spark运行时环境,Databricks使得运行大规模的Spark负载简单而且高效。另外,Databricks还包括了交互式的notebook环境,监控工具以及安全控制从而使得Spark可以非常容易的在具有上千个用户的企业落地。 在Azure Databricks, 通过微软和Databricks的密切合作,我们在Databricks平台基础能力上更进一步,紧密的集成了Azure服务的能力。Azure Databricks提供了访问Azure存储平台的优化的连接器,从而提供最快的数据访问速度。同时支持通过Azure Console的一件事管理。这是Apache Spark平台第一次紧密的与一个云平台提供商合作,从最底层进行优化提高数据分析的性能。

对数据工程师和数据科学家的好处

为什么Azure Databricks对于数据工程师和数据科学家有用呢?让我们来看看:

优化的环境

Azure Databricks从底层开始做优化从而保证在云上的性能和成本收益。Databricks运行时环境给Spark负载增加了几个关键的能力,可以在Azure上运行时提高性能并且节省10到100倍的成本:

  1. 高速的连接到Azure Blob Store和Azure Data Lake等Azure存储服务的连接器,这些连接器是与这些服务的开发者一起联合开发的。
  2. Spark集群的自动缩放和自动终止,从而最小化花销。
  3. 包括缓存,索引和高级查询优化在内的性能优化,比传统的Apache Spark在云或本地环境中的性能提高了10-100倍。

无缝的协同

你应该记得当文档变得真正的能多人编辑时效率是如何的提升。我们为什么不能使得数据工程和数据科学也变成这样?Azure Databricks就是如此。Databricks上的notebook能够进行共享和实时协作,以便您组织中的每个人都可以使用您的数据。仪表板使业务用户能够在现在存在的任务中使用新的参数。 Databricks与PowerBI紧密的集成以支持交互式的可视化。 能够使这些能力成为可能,是因为Azure Databricks由Azure数据库和其他支持高度并发访问、高性能和地理复制的技术的支持的。

易于使用

Azure Databricks附带了交互式的notebook,可让您连接到常见的数据源,运行机器学习算法,并学习Apache Spark的基本知识以快速入门。 它还具有集成的调试环境,可以让您从交互式notebook中分析Spark作业的进度,另外还包含分析已经完成的作业的强大工具。 最后,还预装了其他常用分析库,例如Python和R数据科学技术栈,以便您可以使用Spark来进行洞察。 我们确实相信大数据可以变得数以十倍的更易用,我们正在继续坚持Apache Spark的理念,以提供统一的端到端平台。

Azure Databricks架构

那么Azure Databricks是如何组装在一起的呢?在高层次上,服务在每个Azure客户的订阅中启动和管理worker节点,从而让客户可以利用其帐户中的现有管理工具。 具体而言,当客户通过Databricks启动集群时,“Databricks appliance”将作为客户订阅中的Azure资源进行部署。 客户指定使用的虚拟机的类型和数量,但Databricks管理所有其他方面。 除了这个设备,一个托管资源组被部署到客户的订阅中,托管资源包括一个VNet,一个安全组和一个存储账户, 这些是Azure用户熟悉的概念。 一旦这些服务准备就绪,用户就可以通过Azure Databricks UI或通过自动伸缩等功能来管理Databricks集群。 所有元数据(如计划作业)都存储在具有地理复制功能的Azure数据库中以实现容错。 Azure-DB-Blog-Image.png

对于用户来说,这个设计意味着两件事。 首先,他们可以轻松地将Azure Databricks连接到其帐户中的任何存储资源,例如现有的Blob Store或Data Lake。 其次,Databricks从Azure控制中心集中管理,不需要额外的设置。

完全的Azure集成

我们将Azure Databricks与Azure平台的所有功能紧密集成,以便为用户提供最好的平台。 以下是我们迄今为止所做的一些部分:

  • VM类型的多样性:客户可以使用所有现有的VM:机器学习场景的F系列,海量内存场景的M系列,通用的D系列等。
  • 安全和隐私:在Azure中,数据的所有权和控制权属于客户。 我们已经构建了Azure Databricks来遵守这些标准。 我们旨在为Azure Databricks提供Azure其余部分遵守的所有合规性认证。
  • 网络拓扑结构的灵活性:客户有多种网络基础设施需求。 Azure Databricks支持客户VNET中的部署,这可以控制可以访问哪些源和接收器以及如何访问它们。
  • Azure存储和Azure Data Lake集成:通过DBFS向Databricks用户展示这些存储服务,以便对现有数据进行缓存和优化的分析。
  • Azure Power BI:用户可以使用JDBC将Power BI直接连接到Databricks集群,以便使用熟悉的工具以大规模的交互方式查询数据。
  • Azure Active Directory提供对资源访问的控制,并已在大多数企业中使用。 Azure Databricks工作区部署在客户订阅中,所以可以非常自然的用AAD控制访问数据源,结果和作业。
  • Azure SQL数据仓库,Azure SQL数据库和Azure CosmosDB:Azure Databricks可轻松高效地将结果上载到这些服务中,以便进一步分析和提供实时服务,从而使在Azure上构建端到端数据架构变得非常简单。

除了您可以看到的所有整合之外,我们还努力以无法看到的方式进行整合 – 虽然好处是显而易见的。

  • 在内部,我们使用Azure容器服务通过容器运行Azure Databricks控制面板和数据面板。
  • 加速网络提供了云中最快的虚拟化网络基础架构,Azure Databricks利用它来进一步提高Spark的性能。
  • 最新一代的Azure硬件(Dv3虚拟机),NvMe SSD能够在IO上延迟100us,这使Databricks I / O性能更好。

我们只是抓到最浅层的表面! 随着服务GA并且进一步演进,我们希望能够继续与其他即将到来的Azure服务进行整合。

结论

我们很高兴能够携手合作为您带来Azure Databricks。 领先的云提供商和领先的分析系统提供商首次合作建立了一个云端分析平台——从Azure的存储和网络基础架构到Databricks的Apache Spark运行环境。 我们相信,Azure Databricks将极大地简化企业级生产环境数据应用的构建,并且我们很乐意听到您的反馈意见。  

  • Nov 20 / 2017
  • 0
Data, Enterprise

锐眼洞察 | 移动App行为数据研究的商业价值

作者:TalkingData首席布道师 鲍忠铁

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

 

证券行业的客户金融交易渠道将会转向移动互联网,客户证券投资和财富管理服务将主要发生在移动App,其将成为客户的主要入口和金融产品主要发布场所。证券企业如果想赢得未来市场,赢得客户,取得在金融市场的领先优势,就必须了解客户的金融产品需要,重视客户的交易行为和互动行为数据。利用数据了提升客户体验,提升移动互联网端的数据和业务运营能力,具有同互联网企业一样的技术能力和迭代速度。重视用户的移动端行为数据将成为证券行业未来在市场成败的一个关键。

证券行业过去主要分析交易数据、资产数据、产品数据、人口属性数据。典型数据应用有数据库营销中的关联分析和交叉销售。交易数据对营销具有较大的商业价值,特别是老客户经营。例如某些产品的客户复购率较高,利用交易数据可以进行多次营销,降低营销成本。

行为数据相对于交易数据具有不确定性大的特点,行为数据更关注客户的兴趣偏好,更适合了解客户体验和用户潜在金融需求。利用App行为数据进行营销,具有范围广、预测性强等优点,缺点主要其营销的业务转化率不太稳定。考虑到潜在的目标人群基数较大,即使是较低的转化率,其转化的目标客户也会很多。曾经在一个案例中,利用资讯推送来影响客户进行投资,其过转化率接近40%,大大超出了想象。一般行为数据营销的转化率都低于10%,集中在1% – 5%之间。如果低于1%的转化率,这个基于行为数据建立的营销方案将会被放弃。

行为数据的场景应用建立在场景化标签之上的,基于App内部行为的场景应用来源于具体业务目标,例如证券App中的绑卡入金、购买理财、股票交易、基金买卖、贵金属购买、关注收藏等。

第一节:行为数据分析有助于加速产品迭代和提升客户体验

App行为数据包含浏览、点击、评论、交易等几类,可以通过App的按钮和事件埋点进行提取。经过异常值处理和数据去噪音之后,就可以进行分析和应用。移动互联网企业如BAT等巨头,其产品和用户体验的竞争力就是来源于行为数据的分析和应用。

过去证券行业人员可以通过线下的营业网点来接触客户,利用同客户面对面的交流,了解客户金融产品需求和用户体验。现在客户几乎不再去营业场所,或者去证券营业部的客户年龄都较大。光大银行曾经统计过一个数据,经常到营业网点办理业务的客户,平均年龄为52岁,说明年轻客户基本上很少去网点办理业务。这些年轻客户正是证券行业主要的客群,未来将会成为证券企业的主要收入来源。证券企业如果想了解客户的金融需求和客户体验,其主要的方式就变成了分析App的行为数据,这也说明了研究分析App行为数据的重要性。

在互联网企业中,App运营团队有一个重要的职责就是每天分析App的行为数据,主要是因为行为数据代表了客户对产品的喜好。基于App行为数据的分析,互联网企业的产品经理可以及时调整产品,进行产品迭代,快速满足客户对移动产品的需求。互联网企业产品迭代完全基于App行为数据的分析,基于行为数据的结果。

客户在App的行为点击和浏览数据,辅以时间维度分析和漏斗分析,可以真实反应客户体验情况。互联网企业的运营部门参考这个数据可以分析客户喜欢哪些产品、广告、活动等,同时也可以了解客户不喜欢哪些产品、活动等。利用行为数据分析,运营部门可以实时了解客户体验情况,及时调整运营活动和产品布局,围绕客户需求来提升客户体验。移动互联网时代,客户体验本身比产品更加重要。

证券行业一直想学习和掌握互联网企业的竞争优势,特别是在产品迭代和用户体验提升两个方面。行为数据分析为证券行业产品迭代和体验提升提供了技术支持。证券企业完全可以深度分析App行为数据,利用行为数据分析结果来进行产品迭代和用户体验提升。例如证券行业可以分析App的点击热力图,利用App点击热力图来了解客户喜欢哪些功能,客户很少点击的功能就可以及时下架。参考AB测试的数据来分析客户更加喜欢哪些功能,基于客户点击爱好进行App的功能迭代和用户体验提升。证券行业还可以参考客户DAU、留存时间、打开次数等行为数据进行分析,了解客户对App体验反馈,留存时间增加和打开次数增多代表用户对App的喜爱程度增加。实时反馈的行为数据可以及时让证券行业了解体验情况,及时进行产品迭代。

证券移动App的行为数据具有直观、实时、客观等特点。基于行为数据的分析对于了解客户体验和了解客户对产品喜爱具有重要意义,是证券行产品迭代和用户体验提升的基础数据,证券行业必须重视对其的研究和应用。

第二节 行为数据研究有助于提升券商互联网运营能力

互联网行业有一句经典的话,三分产品、七分运营,好的产品不是设计出来的而是运营出来的。互联网运营的基础就是行为数据的分析,运营团队通过行为数据的分析实现运营能力的提升。

证券企业希望学习互联网企业的数据运营能力,其主要体现在数据的分析和应用能力,包括基于数据的产品运营、渠道运营、用户运营、活动运营等。这些运营能力是建立在数据分析和应用基础之上的,其中行为数据应用能力是其重要组成部分。

产品运营的核心工作就是产品优化,包括UI/UE、产品框架、内容建设、产品维护、用户维护、活动策划等。用户需求不断变化,产品需要通过持续的迭代完善才能满足用户需求,没有运营则无法时刻洞察用户需求变化;运营是让产品持续产生产品价值和商业价值。行为数据是产品进行优化的基础,基于行为数据中的点击数据和浏览数据,运营团队可以了解客户对UI、产品的喜好,对内容的关注,对活动的反应。依据行为数据分析进行产品迭代和优化,行为数据是产品运营的重要参考。

渠道运营是指利用资源和流量为产品带来新增用户,包括免费、付费、换量、人脉积攒、产品的吸引力、圈内人的推荐、策划活动、内容营销、用户口碑等手段。互联网线上渠道发展比较野蛮,鱼龙混杂。特别是移动App推广市场,不但流量贵,而且假量还大。参考TalkingData发布的移动互联网报告,在某些高峰时段,一些渠道的假量超过了50%,也就是说至少有一半的点击和下载是无效的,广告推广费用是浪费的。曾经在某一个特殊时间段TalkingData移动广告监测平台Ad Tracking一天收到了24亿次点击,其中90%的点击是假量、是恶意刷量。券商利用App的行为数据可以有效分析出哪些渠道效果好,真实量比例高;哪些渠道效果差,假量明显。行为数据还可以分析出哪些是真正的客户,哪些是一次性客户,哪些是羊毛党客户,哪些是有效客户。通过App渠道分析数据,券商可以降低广告投放费用,提升线上获客质量,提升广告获客的ROI。行为数据是渠道运营的重要参考指标,通过App渠道数据的分析,可以提升券商在移动互联网渠道运营能力。

用户运营指以用户为中心,遵循用户的生命周期价值点和用户产品需求设置运营活动与规则,制定运营战略与运营目标,严格控制实施过程与结果,以达到预期所设置的运营目标与任务。用户运营最直接价值就是提升用户金融产品的复购率,提升单客价值,激活休眠客户、挽留流失客户、发现潜在客户等。证券行业面临较大的挑战有休眠客户比例过高,客户单客价值不高,流失客户明显。这些问题都可以通过行为数据分析找到解决办法。例如通过客户点击和关注的数据,了解客户资讯需求,主动推送资讯给客户,激活休眠客户。利用点击和浏览行为数据趋势分析,及时了解客户流失倾向,结合客户产品喜好和兴趣爱好,定制激励方案,挽回流失客户。行为数据可以直观反映出客户兴趣和喜好,为用户运营提供方案支持,具有非常大的参考价值。

券商如果希望具备互联网企业的运营能力,在产品运营、渠道运营、用户运营等方具有同互联网企业同样的技术和运营能力,就需要重视行为数据的分析和应用。

第三节 行为数据应用是券商业务智能化发展的基础

证券行业智能化发展是必然趋势,一方面是智能化应用的技术条件具备了,例如数据处理能力、模型算法能力、专业人才储备;一方面是券商所面临的经营成本高、效率低、客户服务覆盖率不高等问题,可以通过智能化应用来解决。

证券行业智能化应用的广义涵义是借助于工具平台和智能应用来解决具体的业务问题,这些业务问题可能是个人投顾无法直接服务全体客户;可能是传统电话客户服务成本高,效率低,客户体验不好;可能是内部流程效率较低,无法满足客户变化的金融需求;也可能是投研和投顾人员缺少可以服务客户资讯平台等。

证券行业智能化应用狭义的应用领域包含智能投顾(机器人理财)、智能客服、智能资讯推荐、智能投研数据平台、智能数据应用平台等。其主要解决还是效率问题,本质还是券商服务的自动化和智能化,可以提升客户体验和降低服务成本。

证券行业智能化应用的一个前提是海量数据,包含交易数据和行为数据。但是这些数据不是原始数据,而是经过业务专家标注的,具有业务价值的数据,可能是标签数据、归类数据和分析结果数据。行为数据对于智能应用具有较大的商业价值,例如在智能客服中,客户的行为数据代表其产品和风险偏好,智能客户可以利用这些处理过的行为数据,为客户打上标签。基于行为数据进行客户分群或分层,智能客户将参考这些行为数据为定制客户服务内容,直接有效地为客户提供金融产品服务。借助于行为数据标签,智能客服将会缩短服务路径,直接切入客户喜好,提升客户体验,提高服务效率。如果行为数据揭示客户倾向于港股交易,智能客服在服务时就可以侧重于港股资讯。如果客户有融资融券倾向,智能客服就会提供相关介绍和激励措施。如果行为数据揭示客户倾向投资能源板块,智能客服就可以提供更多的能源资讯,为客户投资提供支持。

智能投顾原理是参考客户投资风险偏好和投资兴趣,为客户定制投资组合,在一定风险可控的前提下,获得一定的最优收益。行为数据可以支撑智能投顾中客户的投资偏好,通过对客户点击、浏览、关注等行为数据的分析,券商可以了解客户的投资兴趣偏好。例如客户点击股票所属的板块、关注的交易板块、浏览的资讯、这些行为都可以在一定程度上反映客户的投资兴趣,经过一定分析和加工之后,可以作为标签类数据输入到智能投顾平台,作为智能投顾推荐投资组合的参考信息,有助于提升智能投顾的客户体验和客户购买转化率。

券商移动App行为数据具有intention属性,代表了客户内心的需要,也可以认为是客户理性行为和感性行为的综合,其中感性成分更高一些。中国的投资客户,大部分变现为理性投资客户,但是在进行证券交易时往往体现的是感性一面。因此研究行为数据有利于了解客户心理行为,也就是客户感性行为。行为数据经过加工处理之后,可以表现为标签数据,结合业务场景和交易数据,可以帮助券商更加客观了解客户金融需求。券商可以针对客户的兴趣爱好,提供相应的智能资讯和投研报告,协助客户作出更加客观的投资决策。行为数据结合相应的资讯会缩短客户决策周期,提升客户交易积极性,有助于提升客户交易额和交易频度。例如通过行为数据的分析,推送客户关注股票板块的资讯,通过不同组客户测试,发现收到资讯的客户其交易下单率高于不收到资讯客户30%,其中收到相应板块资讯的客户,高于非相关资讯客户的50%。

总之,移动App行为数据的分析和应用可以帮助券商加速产品迭代和提升客户体验,建设同互联网企业同样领先的运营能力,并为券商智能化应用提供具有较高商业价值的数据,推动券商智能化应用的发展。

 

  • Nov 17 / 2017
  • 0
Data, Ideas

锐眼洞察 | 大数据平台的思考

作者:TalkingData首席数据科学家 张夏天

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

 

目前我们正在规划我们新一代的智能数据平台;这几年以来,我们也一直在尝试做一个足够强大的数据平台来高效支持内外部的应用;我们也在不断调研全球最新的数据技术和产品。最近一年来,我也对到底要什么样的数据平台、到底需要什么样的功能、我们要根据什么原则去设计,有一些不太成熟的、碎片化的思考。上周五跟老阎、松柏、老何和学波一起沟通规划时,讨论了很多问题,也使得我对这些问题的思考更加深入了一些。这里做一下简要总结。

在大数据行业干了这么些年,我相信大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。

自然,面对这些问题,我们会想能不能有一个平台把数据以及数据利用的各个环节都有效管起来,让我们可以很轻松的把数据的来龙去脉搞清楚,借助各种强大的功能非常方便的让我们把数据处理、数据探索、特征工程、分析建模乃至生产应用都轻松的解决。总之,我们希望这个平台能把一切都管起来,把一切关于数据、项目和工程的信息都管起来。使用者只需要在这个平台上就能获得关于数据的一切信息,并能够获得各种运用数据的能力。这可以说是数据平台的终极理想。

但是最近半年来,我对这个终极理想产生了比较大的疑惑,感觉追求这一目标可能是“理性的自负”。

复杂与失控的现实

复杂的大数据

首先,大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。

可能必须得承认,我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。

可能很多人也认为“数据湖”只是一种过渡,我们还在等待更强大的数据管理和数据治理的技术、工具、平台和方法论的出现。但是,人的智力和精力终归是有限的,如果我们期望能为所有数据都建立非常良好的文档和谱系来进行管理,并且能够得到及时的维护更新,需要投入的人力可能是无法承受的。而且如何保证这些管理的质量?只做形式审查是比较容易的,但是无法正真保证管理文档的内容质量,但是实质审查实际上又是不可能做到的。因此,很可能我们根本没有办法对大数据建立起传统意义中的管理体系。

复杂的技术

其次,技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。

但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。

另外,即使技术本身不变化、功能不变化,但是处理的数据规模不同、质量不同、具体的资源规模和配置都会有很大的不同。处理大数据难点在于如何用有限的资源和能力来处理规模巨大的问题。同样的处理逻辑,但是数据规模的不同,有效的处理方法可能就有很不同。而这是预设功能难以全面考虑清楚的。

综上,大数据平台面对的技术问题也是开放性的,或者说也是失控的,我们执着于技术和功能层面的大一统也很可能是“理性的自负”。

大数据平台设计哲学的重构

面对大数据,在数据和技术都失控的情况下,考虑如何强加对数据的控制和提高驾驭数据的能力都很可能是徒劳的。我们需要重新思考大数据平台的设计哲学,而不是在传统大型软件设计的哲学下做加强和修补。对于此,我有一些思考。

拥抱不完美

首先,我们必须承认我们的无知和无能,放弃去构建一个全知全能的平台的理想。我们需要思考大数据平台要管什么,更重要的是不管什么。我们需要在该放手的地方就放手,我们需要接受甚至是拥抱某种程度的失控。我们很可能就没有办法把所有数据都非常好的管起来,只需要通过平台,新手就很容易把数据情况搞清楚。我们很可能也无法提供完全统一设计风格、交互逻辑的功能界面。我们必须容忍一定的混乱,从而拥抱无限的可能和变化。

经验与价值的沉淀

还是先从数据来看,了解数据最便捷的途径就是找到最了解这个数据的人进行直接沟通。最了解数据的人可能是数据的生产者,也可能是数据的处理者,甚至是消费者。很多情况下完全搞清楚,可能需要与所有相关方都进行沟通后才比较清楚。平台的设计到底是要消除这种直接沟通,还是让这种沟通更有效率呢?

因为全面文档化是不现实的,那么我们能够考虑的是让目前的方式效率更高。数据平台能够承担的一个功能是更有效的把数据的需求方和了解数据的人连接起来。原来我想找一个了解某个数据的人,都可能需要问好几个人,而要了解清楚一个数据又可能需要找到好几个人,这就需要不断在线下反复的沟通。如果平台能够告诉我哪些人对这些数据最了解,这就可以提升相当多的效率。

当一个人一位对某个数据最了解,而被人问了很多次问到很烦的时候,他可以把自己对这个数据的总结的文档和FQA放到平台上。对这个数据关心的人也可以写评论谈自己对数据的理解和遇到的坑。当一个数据被使用的越多,那么平台上就可以沉淀出越多关于这个数据的信息,包括最熟悉的人和各种对数据的描述和解读,后来的使用者就越容易掌握这个数据。

我们可以想象,一个数据平台,经过一段时间的沉淀,有些数据的相关文档会变得十分丰富,而有些数据根本无人问津。当我们不追求全面的控制后,最有价值的信息可能就自动涌现了。当然,当我们要使用一些鲜有人问津的数据时,就需要经历一个比较痛苦的过程。但是只要平台能把这个过程积累到的经验沉淀下来,就是有价值的。

从标准化到社区化

利用大数据是需要探索精神的,大数据平台不应该是一条机械的流水线,把使用者变成一个个没有联系的随时可以替换掉的零部件。因为我们不可能做成真正构建这样有效率的流水线。同时,我们几乎无法用一套客观的量化指标来衡量对数据的利用效率,我们必须寄希望于人的主动精神。大数据平台的设计哲学应该以人为中心,尊重人的价值,激励人的探索和创新精神,让对数据有激情的人能够涌现出来,产生更大的声音,同时鼓励和便利人与人之间的沟通,从而提高总体的效率。总之,平台设计思想应该从标准化转为社区化。

弹性与开放

从技术上来看,我们需要尽可能的适应各种不同的功能和性能需求以及未来可能出现的技术演进。为了解决这个问题,我们需要的不是一个结构复杂包罗万象的技术架构,因为越复杂的系统就越脆弱,就越难以进化。 我们也不能绑定核心计算引擎就是Spark或者某几种特定技术,否则这就不是一个能力全面的数据平台。

很多为自有业务设计的数据平台是可以考虑业务特性来进行特化的。但是我们作为企业服务的提供商,需要考虑的是足够的通用性和灵活性。我们在技术架构的设计哲学上,不应该执着于提供多少强大的功能,而是应该专注于能够提供多少可能性和可扩展性。我们永远无法知道明天客户会有什么新需求,也无法知道会有什么新技术出现。

因此在技术架构上,应该以容器技术为基础,实现弹性的资源管理,和对技术和功能的开放支持能力。在容器技术的支持下,可以做到不同计算资源的即开即用即回收,可以支持资源的动态智能调整。当一个任务需要Spark时就创建Spark集群,需要TensorFlow就创建TensorFlow集群,任务完成就可以把资源及时回收,任务过程中根据资源使用情况和任务完成要求,动态的增加或者减少资源。

这种架构下,我们不是将各种技术能力整合封装成各种固定功能提供给使用者将他们的工作傻瓜化,而是向使用者赋能为其开放各种技术能力以及资源能力去创造无限的可能性。这种架构下很难提供统一的界面设计风格、交互逻辑,很多工作也需要使用者开发完成。因为我们无法做到对所有的技术进行统一风格的封装,而是把所有的技术直接暴露给了使用者,使用者必须自己使用这些技术来解决问题。当然这并不是说我们不需要做产品设计,只是产品设计的出发点不是创造一套独立完美的体系,而是应该着力于让使用者更容易的将不同的技术方便的组织起来,同时减少在不同技术之间切换的麻烦。

同时,技术架构也需要考虑不同模块之间如何组织的问题,这个问题遵循服务化的思路应该是已经形成共识,这里就不再过多展开。只是个人觉得在推行服务化之前,我们需要把服务接口的标准、服务总线的技术定下来。有好的服务基础架构,新增、替换、升级不同的模块就变得相对容易。从需求角度确定的功能和模块不可能是百分之百正确的,后续一定会面临着重构和调整的问题。只有做好面对一切变化的准备,才能更好的面对各种不确定性。

适应而不是约束

最后,我想谈谈关于方法论的问题。产品设计方法论先行是对的,但是我们要深入思考什么才是有效的方法论。关于数据挖掘的方法论已经存在十几年了(CRISP-DM),老实说我们在思考的数据科学的方法论并不会有本质性的改变。但我对这些方法论的感觉就是“如何把大象放进冰箱”,或者5步画马法。原则上都对,但是对实际工作的指导意义非常有限,因为魔鬼都在细节中。

其实面对大数据,不仅我们对数据和技术是失控的,实际上我们如何处理、应用数据的过程在很大程度上也是失控的。整个过程就像在走迷宫,工作步骤分形似的不断展开。任何大的指导原则对于具体工作的指导意义就变得极为有限。

正因为如此,产品设计应该考虑的是如何适应这种Ad-hoc的工作状态,而不是用一套流程把使用者束缚起来。我们可以提供一些机制便于使用者来梳理手头的工作,但是尽可能不要去强制使用者遵守某种约束性很强的标准或者规范。为什么像NoteBook这样设计如此简单的工具能够流行起来,很重要的一点就是给使用者足够自由的工作界面来做任何想做的事情,而且即写即得,便于随时修改策略,同时文档可以根据需要随时插在代码之中。正是这种无结构的扁平性,使得用户可以按照最合适的路径去完成自己的工作,而不是在被设计好的过程中挣扎。

总结

写了这么多,其实核心想说的就是我们必须警惕“理性的自负”。我们首先必须承认理性的力量是有限的,我们不是无所不能的。面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控。这是在我们智能数据平台研发道路的起点上需要思考的问题。

  • Nov 17 / 2016
  • 1
Data, Enterprise, Tech

TalkingData营销云技术实践——基于RocksDB的高效标签计算

作者:王福胜

“营销云”(TalkingData MarketingCloud) 是TalkingData发布的新一代广告营销数据管理平台,利用超过40亿移动终端数据的覆盖优势,实现了从人群构建、多维洞察到同步投放、客观监测的一体化解决方案。

TalkingData积累了40多亿移动设备的数据, 并且基于这些数据建立了自己的标签体系。 现有12大类超过800个受众定向标签,包括人口属性,设备属性,位置属性,兴趣,消费特征,安装的应用App等。这些标签关联的设备累加起来超过700亿。 如何利用这些标签为用户提供快速的标签人群构建,对人群进行多维度的快速画像是一个挑战。

Continue Reading

页面:12345678910...20
随时欢迎您 联系我们