多种措施并进,TalkingData有效保障数据安全与合规

数据安全和合规性是企业运营的重要基础。

公安部网络安全保卫局郭启全总工曾在公开场合表示,国家对网络安全等级保护制度提出了新的要求,等级保护制度已进入2.0时代。

TalkingData非常重视数据合规及数据安全。在近日举办的TalkingData 2018产品及战略发布会上,TalkingData创始人兼CEO崔晓波在演讲中强调了对数据安全的关注以及努力,并将“开放、连接、安全、智能”作为TalkingData的战略方向与差异化优势。

Markdown

目前,TalkingData按照国内法规、甚至GDPR的要求,将数据安全作为全局考量,纳入所有业务和产品的设计与落地中,并在数据保护技术方面持续进行大量探索和实践,包括与MIT麻省理工学院合作研发创新性的技术框架OPAL(Open Algorithms)。

Markdown

6月27日,公安部制定并发布了《网络安全等级保护条例(征求意见稿)》,将网络安全保护等级分为五个等级,贯彻落实《中华人民共和国网络安全法》,深入推进实施国家网络安全等级保护制度。

TalkingData已在日前开展了信息安全等级保护备案工作,以尽快明确自身安全保护等级,从而更好的按照该条例的规定承担相应的安全保护义务。

此外,为了更好的保护数据安全,企业也应将国家要求与业务需求相结合,发现系统内、外部存在的安全风险和脆弱性,提高信息系统的信息安全防护能力,降低系统被各种攻击的风险。

为此,TalkingData早在2014年就通过了ISO27001:2013信息安全管理体系认证,并于2017年获得了CMMI(level 3)的认证,这标志着TalkingData的数据安全管理过程更加规范,并在数据安全、设备安全、信息系统安全、人员安全管理等方面均达到了国际化的较高水平。

CMMI(Capability Maturity Model Integration), 由美国国防部与卡内基-梅隆大学软件工程研究中心以及美国国防工业协会共同研发,是对于企业软件能力成熟度集成模型的国际化权威认证。历经复杂的准备与认证过程,TalkingData已在2017年5月5日获得了CMMI(level 3)的认证。获得此项认证,说明TalkingData已将软件管理和工程两方面的过程文档化、标准化,并综合成标准软件,使信息处理合规化;同时也说明TalkingData在软件工程管理和开发改进能力以及信息处理方面达到了国际化领先水平,有能力为合作伙伴提供值得信赖的软件开发与维护服务。

Markdown

ISO/IEC27001:2013是国际化通行的信息安全领域的管理体系标准。通过此项认证,意味着企业已经建立了一套科学有效的管理体系,可以有效保护信息资源,保护信息化过程健康、有序、可持续发展。TalkingData已于2014年11月17日首次获得此项认证,并于2017年11月15日再次获得了此项认证,这意味着TalkingData有能力向客户提供值得信赖的服务,同时有能力向信息主体与有关主管部门作出企业信息安全的保证。

Markdown

TalkingData认为,数据安全与合规性既是企业运营的底线,也是影响未来健康发展的重要指标,TalkingData会继续将数据安全与合规性作为关键工作给予重视与投入。

Markdown

【邀请函】TalkingData & 德勤中国 数据安全峰会将在北京举办

Markdown

随着大数据时代的到来,数据已经成为与物质资产和人力资本同样重要的基础生产要素。大数据正在重塑世界新格局,被誉为是“21世纪的钻石矿”,更是国家基础性战略资源。在大数据时代,机遇与挑战并存,越来越多的数据共享开放,交叉使用。针对关键信息基础设施缺乏保护、敏感数据泄露严重、智能终端危险化、信息访问权限混乱、个人敏感信息滥用等问题,急需通过加强网络空间安全保障、做好关键信息基础设施保护、强化数据加密、加固智能终端、保护个人敏感信息等手段,保障大数据背景下的数据安全。

国家高度重视大数据安全,将其作为国家发展战略予以推动。2016年11月,第十二届全国人民代表大会常务委员会通过了《中华人民共和国网络安全法》,鼓励开发网络数据安全保护和利用技术。2016年12月,国家互联网信息办公室发布了《国家网络空间安全战略》,提出实施国家大数据战略、建立大数据安全管理制度、支持大数据信息技术创新和应用要求。在欧洲,从2016年4月14日,欧洲议会投票通过了商讨四年的《一般数据保护法案》(GDPR),该法案于2018年5月25日正式生效。GDPR的通过意味着欧盟对个人信息保护及其监管达到了前所未有的高度,堪称史上最严格的数据保护法案,并对中国企业造成深远影响。

TalkingData和德勤始终保持着对数据信息安全、数据保护相关法律法规的高度关注,专注于为企业提供全面而深入的服务。为交流经验,凝聚共识,TalkingData和德勤中国将于2018年7月31日在北京举办“TalkingData & 德勤数据安全峰会”。届时我们将邀请来自知名机构、独角兽企业高管及精英共聚一堂,深度对话大数据环境下的数据信息安全。

在此,我们诚邀您出席本次活动,聚焦网络安全法规、数据安全实践、企业发展策略等关键议题。期待您拨冗莅临!

峰会详情

主办单位

  • TalkingData
  • 德勤中国

日期

  • 2018年7月31日(星期二)

时间

  • 13:30 – 17:00

地点

德勤北京办公室(北京市东城区东长安街1号东方广场W2座3层)

峰会议程

Markdown

报名及垂询

请扫描下方的二维码报名参与

Markdown

如您有任何垂询,请联系

马涛

TalkingData

电话:+86 136 0125 3356

邮箱:tao.ma@tendcloud.com

周立彦

德勤中国

电话:+86 (10) 8512 5909

邮箱:liyzhou@deloitte.com.cn

TalkingData崔晓波:“成效合作”是检验“数据智能”的最终标准

✎导读

数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

Markdown

近年来大数据和人工智能领域正发生深刻的进化,继2016年横空出世的阿尔法狗(AlphaGo)击败了围棋世界冠军李世石后,阿尔法元(AlphaGo Zero)又以100比0的战绩击败了阿尔法狗;另一重要事件是2018年3月科技独角兽Palantir Technologies 获得美国军方8.76 亿美元合同。

以上事件可以说“数据智能”已经发展到令人惊奇的阶段,一方面阿尔法元(AlphaGo Zero)可能证明“智能”正在迈过“数据”的桎梏;另一方面大数据企业赢下大单,也从侧面说明“数据智能”已经能够对现实世界产生重要影响。

回顾2011年TalkingData创始人兼CEO崔晓波决心在大数据领域创业时,彼时对大数据的未来还只是判断。“那时候最经典的一个讨论,我们几个创始人认为智能手机就是以后数据最重要的一个点,不仅能够把线上跟线下的数据打通,而且是历史上第一次人随身携一个测量仪,忠实地记录人物线上所有的行为、线下所有的足迹,当时我们都觉得机会来了。”庆幸的是,崔晓波赌对了。

随后大数据企业也如雨后春笋一般成立起来,在此后发展的过程中,大数据市场上逐渐形成三类玩家:第一类是数据源企业,包括数据生产和数据交易企业;第二类是工具,一些BI企业也可以划分在这个维度里;第三类是咨询以及相关服务。“基本上99%能够分在这三类里面,”是崔晓波对当下大数据市场的认知。

经过7年发展,崔晓波希望TalkingData突破传统的数据源公司、数据软件公司、咨询公司模式,以“数据智能服务商”为定位,基于开放连接的理念构建整合数据产业链各方资源的平台生态。如果简单一句话解释TalkingData新商业模式,就是TalkingData希望自己不是上文提到三种模式囊括的99%玩家。

成为大数据领域1%的玩家,崔晓波在如何思考大数据的未来发展和构建TalkingData的明天?在崔晓波和亿欧的交流过程中,他提到两点认知转变:

第一是未来数据合作的核心是连接,而不是拥有

在崔晓波看来,数据拥有并不能解决大数据实际应用中的效果问题。比如单纯的数据交易不是需求决定的市场行为,数据交易会造成数据量大但却缺乏关键数据;另一方面是数据来源少,会造成数据偏差,比如对餐厅门店的第二天客流预测,如果有经营数据、财务数据、交通数据,惟独缺少天气数据,也会让预测出来的结果不准确。因此拥有多少数据不重要,关键的是能连接多少数据。

但数据因为涉及隐私保密、安全等缘由,所以数据的交易和流动都是十分谨慎的事情。为此TalkingData推出SDMK数据智能市场和SmartDP数据智能平台解决数据的流动和应用的问题。

SDMK数据智能市场接入各渠道数据源,打破各企业间的数据孤岛,帮助企业连接更多的数据。SDMK数据智能市场一个非常核心的一个框架是OPAL(Open Algorithms),又名算法开放库,“这个技术框架的核心是不流动数据,只流动算法。”据悉这个由MIT连接科学研究所发起的项目,TalkingData是唯一一家参与的中国企业,在美国有VISA、IBM、NEC等等也在参与。

同时TalkingData在上面提供数据服务、数据工具、数据模型(预置了300多个在领域里面验证的模型)以及数据应用去承载落地,并提供统一计费和计量的模块。

SmartDP数据智能平台是为各方开放提供面向业务场景的数据智能应用与服务。“通过SDMK实现数据聚合还不够,从数据的准备到自动化特征工程、模型生产和管理探索、数据目录的管理等还有很多过程。”SmartDP数据智能平台正是为企业快速上线大数据应用而开发的平台。

SmartDP数据智能平台还包括知识图谱和机器学习等算法和模块,TalkingData可以通过数据一键线性回归处理数据和模块拖曳的方式,迅速在企业的模型商店里面上架应用。

第二是大数据企业应该为效果负责,成效合作是未来趋势

这个转变源于崔晓波去美国参观全球大数据标的企业Palantir,崔晓波问Palatir的合伙人:“为什么你们的客户愿意付那么多钱?”那个合伙人回答,一会我要去签一个1亿美金的单子,是一家石油采集企业希望利用大数据做地质灾害和天气预测的项目。他们花费半年时间做出的模型,能够提前20分钟发出灾害预警,帮助油田在灾害发生前提前关闭油井,降低的损失是巨大的。“Palatir不是卖软件不管结果或者出点子的咨询模式,而是真的为效果服务,因此客户愿意付出成本。”

崔晓波提到国内企业也正在发生这种需求转变,“大概2017年,大量的企业过来找我们说,现在有紧迫的转型升级压力,真的要把数据用起来了,但是他们最大的疑惑是大数据能不能产生实际效果。”

TalkingData的策略是把客户分为几层:第一层是KA(关键客户),这一部分是可以考虑成效合作,因为投入的资源也很大,要确保成功率,要考量很多因素。第二类是叫PA,这类主要提供的是标准化产品、标准化服务。第三类是长尾的客户,是用大量SaaS和DaaS的服务去覆盖。

目前这种KA客户在TalkingData内部有10多家,每家的客单价都是千万元以上。“对KA客户我们完全倾向于成效合作,如果结果好就多分钱,结果不好可以少要钱,甚至承担损失,因为我们觉得这就是未来。”

以TalkingData服务的客户耐克为例,耐克是线上和线下获客比例更占一半。耐克希望帮助他们提升线上的销售成绩。因此邀请TalkingData从数据系统的搭建、日常运营中怎么分析数据,如何将数据应用到业务中,甚至到活动的策划、流量的对接,做出一整套产品方案。“当时我们就提出来,TalkingData可以帮耐克增长线上销售的比例,并按线上销售收入的比例分成,他们也同意。这就是非常典型的成效合作。”

在构建好以SDMK数据智能市场和SmartDP数据智能平台为基础的大数据平台,以及确定未来的商业模式后,崔晓波提到TalkingData会进军各个垂直领域,目前零售、营销、金融和智慧城市是TalkingData重点聚焦的数据智能应用领域。同时TalkingData也发布针对这四个领域的产品,包括联手腾讯云发布的面向线下品牌商的数据智能产品——智选、移动大数据人口统计应用——“统计魔方”、品牌广告价值分析平台TalkingData Brand Growth以及TalkingData金融科技产品。

就像SaaS领域对标市值千亿美金的Salesforce一样,国内大数据领域也在寻找谁是对标百亿美金估值的“Palatir”。目前超过独角兽估值的TalkingData,尽管在某些方面学习Palatir,但是我们依旧能发现二者的不同。提出“人本数据”的TalkingData,认为基于人的统计模型实际上会影响到上面所有的行业和商业,比如TalkingData的智慧城市也是基于人在城市的商业生活展开研究。可以说,TalkingData正在走出一条和而不同的路,未来值得关注。

注:本文源自亿欧网

线上分享|巧用监测数据驱动推广增长

随着流量的日益金贵,广告主在营销期的推广费用也水涨船高。为了量化推广效果以及移动广告作弊情况,广告主通常会通过监测数据报表中的指标作为参考依据。但参考过后,如何将真实数据转化成运营策略或者营销推广策略、高价值渠道转化路径在哪里、渠道推广风险和机会在哪里,广告主是否能通过报表真正的解读出来?

Markdown

7月12日(周四)晚8点,TalkingData将举办《巧用监测数据驱动推广增长》线上分享会。届时TalkingData产品经理 彭颖将分享如通过阅读监测报表,助力广告主数驱推广增长的这些事儿。

(PS:提前报名,抢先占位。名额限量,先到先得~)

报名方式

识别下方二维码,添加主持人微信

需备注:公司-职位-姓名

Markdown

活动概况

  • 时间:7月12日(周四)晚8点
  • 形式:微信社群分享
  • 分享嘉宾:TalkingData产品经理 彭颖

分享内容

  1. 现阶段移动互联网广告主推广困境
  2. 监测数据报表解读
  3. 推广渠道方案优化
  4. 移动广告监测场景应用
  5. …………..

适合人群

从事移动广告行业的圈里人,广告主、营销人、渠道、广告媒介及代理商,也欢迎在营销推广中产生疑惑的各类人士参与交流与沟通。

活动微信社群作为TalkingData为移动广告圈人搭建的沟通平台,欢迎随时交流关于营销推广的各种话题与案例分享。

Markdown

北卡州立大学与中国人民大学签署校级合作协议

2018年7月3日上午,北卡罗来纳州立大学与中国人民大学正式签署校级合作协议,致力于专业数据人才的教育项目共建。

北卡罗来纳州立大学拥有深厚的统计分析人才教育积淀,同时也是分析软件SAS的诞生地,在专业数据人才的培养上,除了传统的理论学习,更加注重数据的实战训练。其首创的数据分析硕士项目(Master of Science in Analytics,简称MSA)被2014年《哈佛商业评论》评为全美“大数据”专业榜首,常年居于北美专业硕士就业率和毕业生平均薪资排名前列。

中国人民大学在统计学学科底蕴深厚,位列高校前茅,其为迎接大数据时代挑战而成立的统计与大数据研究院致力于构建世界一流的统计与数据学科,在学科前沿原创性研究与高水平学科交叉人才的培养上更具前瞻意识。

本次合作双方旨在推动数据人才教育,通过引入领先的专业数据人才学位项目,结合TDU提供的数据实训平台与数据实战行业指导等内容,共同推动国内专业数据人才的培养进程。

Markdown

Markdown

推广期,如何准确衡量渠道的质与量?

对于开发者而言,渠道推广是获客的重要一步。为了统计不同渠道的推广效果,渠道分析是开发者的必然选择。

Markdown

渠道虽然有免费和付费之分,但在推广期都会消耗开发者成本。由细分领域组成的免费长尾渠道,虽流量不可小觑,但耗费大量发包时间。而涉及到分层或买量的头部渠道,却是资本和时间双重成本的叠加。虽然开发者付出了时间与金钱,但并不意味着,此举就是有用功。

开发者无论接入第三方数据分析服务还是自行跑码统计,通过有效指标评估投放渠道质量,是优化渠道、控制成本的有效手段。作为是国内领先的第三方数据智能服务商,TalkingData App Analytics的渠道分析功能,可帮助开发者收集、处理、分析,形成客观的渠道数据报表。使开发者掌握各渠道表现,敏捷优化/改善推广方案,持续发现流量洼地降低成本。

Markdown

渠道分析功能图

如何使用渠道分析功能

App 开发时,集成TalkingData App Analytics SDK即可获得渠道分析功能,帮助开发者实时了解各渠道从用户获取再到参与留存、效果转化等诸多环节的数据表现。

Markdown

TalkingData App Analytics

渠道分析功能特点

1.全平台兼容

支持全部开发平台,无需开发者集成多个SDK,不增加包体负担,全渠道数据一览无余;

Markdown

2.数据客观性

①TalkingData是国内领先的第三方数据智能服务商,各渠道实时数据更客观;

②针对渠道带来用户生产的数据,拉长考察时间区间,更有利于对渠道质量甄别;


渠道分析demo演示

3.多维度节约成本

①无需开发成本,集成即用。数据服务稳定,免去开发者维护成本;

②推广渠道质与量双层优化,降低开发者发包时间、推广成本;

TalkingData App Analytics的渠道分析功能,使开发者以数据为依据,抛开个人喜好,把推广重点关注在真优质渠道,而不是局限于有声量的头部渠道和免费的长尾渠道。让开发者结合渠道数据有针对的调整和优化推广策略,助力开发者推广期准确衡量渠道质与量。

Markdown

简明数据科学 第三部分:假设检验

 

昨天的文章中,我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等,今天我们再来看一看机器学习的基石概念之一假设检验

Markdown

著名的物理学家爱德华·特勒曾经引用过:

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题

概念

假设是指用有限的证据作出的想法,它是进一步调查分析的起点。该概念非常简单,但是在实际应用中很强大。在日常生活中,通常按照如下7个步骤进行:

  1. 做出假设;
  2. 初始状态设定;
  3. 确定替代的问题;
  4. 设置验收标准;
  5.  进行基于事实的测试;
  6. 评估结果。评估是否支持初始状态?确定结果不是偶然的?
  7. 达到以下结论之一:拒绝原来的位置以支持替代位置或拒绝原始位置。

Markdown

以一个故事来进一步解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇,这个小镇有其独特之处是,它被称为巫术博物馆。即使现在,那里也有人声称是巫师。伊西尔德和甘道夫就是这样的人。

他们声称自己具有千里眼的超能力,能够透视任何物体,于是一些研究人员想要验证他们的能力,让他们玩一种叫做透视纸牌的游戏。

该游戏的规则如下:

  1. 伊西尔德和甘道夫随机从四副扑克牌中选择10张纸牌;
  2. 他们必须确认每张纸牌属于那副牌;
  3. 该测试每次重复10次。

在进行此次测试验证之前,已经对正常人进行了测试,得到的结论是正常人能够预测正确的平均次数在6次左右。这个就是本次假设检验的基础,而本次假设检验的目的是统计确定伊西尔德和甘道夫是否是巫师。

第一步:做出假设

不同种类的假设检验需要做出不同的假设。而假设与数据的分布、采样以及线性有关。一些常见的假设如下:

  • 分布: 每种数据都会遵循特定的分布,需要掌握数据中的规律。许多自然发生的数据点如股票市场数据、人体重量和高度、在酒吧喝酒的人的薪水等等都近似正态分布。正态分布只是意味着很多观测值都在中间位置,较少的观察值大于或小于中间值。中间值也称为中位数。
  • 采样: 假设为测试采样的数据是随机选择的,没有偏见。

对于上述透视纸牌游戏,以下假设是正确的:

  • 在透视卡牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为这些纸牌是随机选择的。随机选择纸牌意味着将被挑选的十张纸牌中的每一张都具有被选择用于测试的相同概率。
  • 在该问题中,纸牌没有偏见。

第二步:空假设

空假设是假设验证的初始情况,也就是当下的状态,是拒绝或者失败的立场,在整个假设验证的过程中处于需要验证和测试的位置。

对于上述纸牌游戏来说,空假设如下:

伊西尔德/甘道夫并没有千里眼的能力。

第三步:备用假设

备用假设和空假设正好是相反的。如果统计学获得的证据正好表明备选假设是有效的,那么空假设就是被拒绝的。

对于上述纸牌游戏,备用假设如下:

伊西尔德/甘道夫具有千里眼的能力。

第四步:设置验收标准

空假设和备用假设定义好之后,初始位置为空假设。现在需要设定一个阈值,我们知道一个普通人,即不是巫师的人会在10次中得到正确的六次。如果伊西尔德和甘道夫能够在一次测试中预测超过六张正确的纸牌,那么有更多的证据表明他们确实可能是巫师。有一种度量评估方法叫做t-统计,t-统计估计值远离备选假设越多越合理。

假设检验结果可能会出错。有四种可能的情况:

  1. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们是名巫师;
  2. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们不是巫师;
  3. 测试发现,伊西尔德和甘道夫具有千里眼能力,他们不是巫师;
  4. 测试发现,伊西尔德和甘道夫没有千里眼能力,他们是名巫师。
  5. 测试的结果可能显示结论1和结论2是正确的,结论3和结论4是无效的。

如果结论3属实,这样会导致空假设失效,属于一种误报,此类情况也称为Ⅰ型错误;

如果结论3无效,这样会是的空假设属实,属于一种错误的否定,此类情况称为Ⅱ型错误。

类型所有的统计验证,假设验证也必须处理不确定性,也就是必须处理概率,而概率并没有绝对的。

对于概率来说,需要设定概率层级,以便确定发生I型错误的机会,这个水平被称为显着性水平,使用α表示它。 α越低意味着测试越严格。相对较高的α意味着测试不是那么严格。 α的值是根据假设检验的性质设定的。典型值为0.001,0.05或0.1。

如果所观察到的结果仅仅是偶然的呢?如果这只是一个巧合呢?如果他们在测试进行的那一天刚好幸运呢?这种不确定性需要得到度量,假设检验有一个衡量这个不确定性的指标,p值是该度量。

p值表示为概率。这意味着它的值在0和1之间。p值是在假设为真的假设下偶然观察到的t统计量的概率。

对于透视纸牌游戏,决定如果伊西尔德可以正确猜测超过8张牌,那么备选假设是合理的。他可能确实是一位千里眼。 t统计量是8。

作为一名千里眼人是没有生命危险的。没有人处于危险之中。显着性水平设定为0.05。 α是0.05。

第五步:进行测试

通过重复十次的测试和验证,得到了一些结果。假设统计引擎最终得到如下的结果:

伊西尔德:

  • t-统计:8
  • P值:0.1

甘道夫:

  • t-统计:9
  • P值:0.01

第六步:评估结果

概率(p值)和显着性水平之间的比较产生以下结果:

对于伊西尔德来说:

  • t统计量为8,这意味着,他平均预测了八张牌,比正常人预测的要高。
  • p值是0.1,这意味着观察到的t统计数据归因于偶然的概率是10%。 p值很高。
  • 设定的显着性水平(α)是0.05,转化为5%。
  • p值大于设定的显着性水平,即10%> 5%。

第七步:得出结论

测试已结束,指标是已知的。谁是真正的巫师呢?

对于伊西尔德:p值大于设定的显着性水平(10%> 5%)。尽管平均而言,他已经预测了八张牌;从统计上,结论如下:

  • 伊西尔德的结论:没有实质证据反对空假设,空假设未被拒绝。

对于甘道夫:平均而言,他已经预测了九张牌。,p值低于设定的显着性水平(1%<5%);从统计上,结论如下:

  • 甘道夫的结论:有很好的证据反对空假设,空假设被拒绝,备选假设被接受。

最终,伊西尔德被否认,甘道夫很高兴。然而,伊西尔德也并不那个伤心,测试并没有确定他不是一位具有千里眼的巫师,空假设没有被验证是错误的,也没有证据表明备选假设是不成立的,这意味着没有足够的证据来确定空假设是无效的,在现实中,这样的情况普遍存在。

结语

假设检验是机器学习的基石概念之一,很多评估方法使用假设检验来评估模型的鲁棒性。在我们浏览本系列时,我们将深入探索其构造。

Markdown

简明数据科学 第二部分:统计学习的关键概念

在本系列的第一篇文章中,谈及了数据科学的关键概念和过程,在这篇文章中,会深入一点。首先,将定义什么是统计学习。然后,将深入到统计学习的关键概念,了解统计学习。相信我,很简单。

什么是统计学习

Markdown

根据维基百科,统计学习理论是从统计学和功能分析领域进行机器学习的框架。

机器学习是通过软件应用程序实现的统计学习技术的体现。

这在实践中意味着什么?统计学习是指使我们能够更好地理解数据的工具和技术。那么理解数据意味着什么?

在统计学习的背景下,有两种类型的数据: 可以直接控制功能的独立变量数据; 不能直接控制功能的因变量数据。

  • 无法控制的数据,即因变量需要预测或估计。
  • 更好的理解数据是通过独立变量来更多地了解因变量。例如下面的例子:

假设想根据分配给电视、广播和打印的广告的预算来衡量销售额。分配给电视,广播和打印的预算是可以控制的,但是无法控制的是他们将如何影响销售。于是想将无法控制的数据(销售额)表达为可以控制的数据(广告预算)的功能,揭开这种隐藏的关系。

统计学习则能够揭示隐藏的数据关系,不论是依赖的还是独立的数据之间的关系。

参数和模型

Markdown

运营管理中著名的商业模式之一是ITO模型,即输入-转化-输出(Input-Transformation-Output)模型,有一些输入,这些输入经历一些转化,然后创建出输出。

统计学习也适用于类似的概念,有数据输入,数据输入后经历转化,然后生成需要预测或估计的输出。

而上述的转化引擎部分称之为模型,一些估计输出的函数。

转化过程是数学相关的,将数据输入到特定的数学成分中以估计输出,这些数学成分称为参数

如下例:

决定某人收入的是什么?例如收入是由受教育程度和多年的经验决定的。那么估计收入的模型可能是这样的:

收入 = c + β0 受教育程度 + β1 经验

其中,β0和β1是表示收入函数中教育和经验的参数。而教育和经验是可控的变量,这些可控变量具有不同的含义,他们被称为独立变量,也称之为特征。收入是不可控变量,他们被称为目标

训练与测试(Training and Testing)

Markdown

当你准备异常考试的时候,都做些什么呢?研究、学习、消化知识点、做笔记、不断练习等。这些都是学习和准备未知测试的过程或者工具。

机器学习也使用类似的概念进行学习。数据一般是有限的,因此在使用数据时需要谨慎。模型的构建也需要进行验证,而验证的方法可以参考如下方式:

  1. 将数据集分割为两部分;
  2. 使用其中一部分作为训练数据,让模型从中进行学习,也就是说这部分数据对模型来说是可见的、已知的。这 部分数据集被称为训练数据
  3. 使用另一部分来测试模型,给予模型一部分未知的测试数据,来核查模型的性能。这部分数据称为测试数据

在竞争性考试中,如果准备充分,历史学习有效,那么考试中的表现一般也是令人满意的。同样的,在机器学习中,如果模型很好的学习了训练数据,那么在测试数据上也应该有良好的表现。

一般情况下,在机器学习中,一旦模型在测试数据集上进行测试,就会评估模型的性能。它是根据它估计的输出与实际值的接近程度来评估的。

Markdown

英国着名统计学家George Box曾经引用过:

“All models are wrong; some are useful.”

没有那个模型能够达到100%的准确度,所有的模型都有些错误,这些错误可以从两方面进行衡量

  • 偏差(Bias)
  • 方差(Variance)

下面使用类比来解释这两个维度:

Raj,是一个七岁的孩子,刚刚接触了乘法的概念。他已经掌握了1和2的乘法表格,接下来将挑战3的表格,他非常兴奋,开始了3的乘法的练习,他写下了如下的等式:

  • 3 x 1 = 4
  • 3 x 2 = 7
  • 3 x 3 = 10
  • 3 x 4 = 13
  • 3 x 5 = 16

Raj的同班同学Bob在同一条船上。他的书写结果看起来像这样:

  • 3 x 1 = 5
  • 3 x 2 = 9
  • 3 x 3 = 18
  • 3 x 4 = 24
  • 3 x 5 = 30

让我们从机器学习的角度来研究由Bob和Raj创建的乘法模型。

  • Raj的模型有一个无效的假设,他假设了乘法运算意味着需要在结果后面加1。这个假设引入了偏差误差。假设是一致的,即将1加到输出。这意味着Raj的模型低偏差
  • Raj的模型导致输出始终与实际相距1。这意味着他的模型具有低方差
  • Bob的模型输出结果毫无规律,他的模型输出与实际值偏差很大。没有一致的偏差模式。Bob的模型具有高偏差和高方差

上面的例子是对方差和偏差这一重要概念的粗略解释。

  • 偏差是模型不考虑数据中的所有信息,而持续学习导致错误的倾向。
  • 方差是模型不考虑实际数据情况,而持续进行随机性事物的程度。

偏差 – 方差权衡(Bias-Variance Trade-Off)

Markdown

在初接触数学的时候,每个人可能都会死记硬背一些概念、公式等等,这就是开始的时候,学习的方式。然而如此的方式将面临考试时的问题和背诵的问题不同。问题是数学中的广义概念,显然,在一些考试中,很难完成或者达到理想的分数。

机器学习也是同样的模式。如果模型对特定的数据集学习过多,并试图将该模型应用在未知的数据上,则可能具有很高的误差。从给定的数据集中学习太多称为过拟合。此种情况下,模型难以有效地推广应用于未知的数据。相反的,从给定的数据集中学习太少称为欠拟合。此种情况下,模型非常差,甚至无法从给定的数据中学习。

阿尔伯特·爱因斯坦简洁地概括了这个概念。他说:

“Everything should be made as simple as possible, but no simpler” *

机器学习解决问题的方式是不断的努力寻找到一个恰当的平衡点,创建一个不太复杂但是并不简单的、广义的、相对不准确但是有用的模型。

过拟合的模型显得过于复杂,它在训练数据上表现非常好,但是在测试数据上表现欠佳; 欠拟合的模型又过于简单,它无法在训练数据和测试数据上执行的让人满意; 一个良好的模型是在过拟合和欠拟合之间找到平衡,它表现良好,简单但是有用。

这种平衡行为被称为偏差 – 方差权衡。

结语

  1. 统计学习是复杂机器学习应用的基石。本文介绍统计学习的一些基本概念和基本概念。这篇文章的五大要点是:
  2. 统计学习揭示隐藏的数据关系,依赖和独立数据之间的关系;
  3. 模型是转换引擎,参数是实现转换的要素;
  4. 模型使用训练数据进行学习,使用测试数据进行评估;
  5. 所有模型都是错误的;有些是有用的;
  6. 偏差-方差权衡是一种平衡行为,以找到最佳模型、最佳点。

在本系列的后续文章中,将深入研究机器学习模型的具体内容。敬请期待……

简明数据科学 第一部分:原则与过程

2006年,英国数学家Clive Humbly和Tesco Clubcard的建筑师创造了“数据是新石油”这句话。原话如下:

Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.

iPhone革命,移动经济的增长以及大数据技术的进步创造了一场完美风暴。2012年,HBR发表了一篇文章,将数据科学家放在了新的高度上。数据科学家:21世纪最性感的工作这篇文章将这种“信心人类”称为数据黑客、分析师、传播者和值得信赖的顾问的混合体

如今,几乎每个企业都在强调数据驱动。而机器学习技术的不断进步,正在帮助着企业完成这个目标。在网络上,机器学习相关的资料非常多,但是都太过的技术性并且充斥着大量的高等数学公式等等,让大多数软件工程师难以理解。因此计划编写一系列的文章,使用更加易于理解的方式简化数据科学。

在本文中,将首先介绍数据科学中的基本原理,一般过程和问题类型,对数据科学有一个基本的了解。

数据科学是一个多学科领域。它是以下领域之间的交集:

  • 商业知识
  • 统计学习或称机器学习
  • 计算机编程

本系列文章的重点将是简化数据科学中机器学习方面,而在本文中将首先介绍数据科学中的原理、一般过程和问题的类型等。

关键原则(Key Principles)

Markdown

数据是战略资产:这个概念是一种组织思维。问题:“我们是否使用了我们正在收集和存储的所有数据资产?我们能够从中提取有意义的见解吗?”,相信这些问题的答案是:“没有”。基于云科技的公司本质上都是数据驱动的,将数据视为战略资产是他们的灵魂。然而这种观念对于大多数组织来说都是无效的。

系统的知识提取过程:需要有一个有条不紊的过程来提取数据中的隐藏的见解。这个过程应该有明确的阶段和明确的可交付成果。跨行业数据挖掘标准过程(CRISP-DM)就是这样一个过程。

沉浸在数据中:组织需要投资于对数据充满热情的人。将数据转化为洞察力不是炼金术,而且也没有炼金术士
。他们需要了解数据价值的传播者,并且需要具有数据素养和创造力的传道人。更加需要能够连接数据,技术和业务的人。

拥抱不确定性:数据科学并不是一颗银弹,也不是一颗水晶球。像报告和关键绩效指标一样,它是一个决策的辅助者。数据科学是一个工具但是并不仅限于此,而且数据科学也不是一个绝对的科学,它是一个概率的领域,管理者和决策者需要接受这个事实。他们需要在决策过程中体现出量化的不确定性。如果组织文化采用快速学习失败的方法,这种不确定性只能根深蒂固。只有组织选择一种实验文化,它才会兴旺发达。

BAB(Business-Analytics-Business)原则:这是最重要的原则。许多数据科学文献的重点是模型和算法,而这些大多都没有实际的商业实践背景。业务-分析-业务(BAB)是强调模型和算法在业务部分应用的原则。把它们放在商业环境中是至关重要的,定义业务问题,使用分析来解决该业务问题,并将输出集成到业务流程中。

过程(Process)

Markdown

从上述原则#2中可以看到,数据科学的过程对于实现数据科学至关重要,一个典型的数据科学项目可分为如下几个阶段:

1. 定义业务问题

阿尔伯特·爱因斯坦曾经引用过“凡事尽可能简洁,但不能太过简单”,而这句话也正是定义业务问题的核心。问题的表述需要事情的发展历程和所在场景,需要建立明确的成功标准。几乎在所有的企业中,业务团队总是繁忙无比,但是这并不意味着他们没有需要解决的挑战。头脑风暴会议、研讨会和访谈可以帮助揭开任何问题的面纱并提出可能的解决方案或者假设。而对于如何定义业务问题?可参考下例:

一家电信公司由于其客户群减少而导致其收入同比下降。面对这种情况,业务问题可能被定义为:

该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。

2. 分解为机器学习任务

业务问题一旦定义好之后,就应该分解为机器学习任务。例如上述的示例,如果该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。该如何分解该业务问题为机器学习任务呢?下面是一种分解的示例:

  • 将顾客的流失减少x%。
  • 为有针对性的营销确定新的客户群。

3. 数据准备

一旦确定了业务问题并将其分解为机器学习问题,就需要开始深入研究数据了。对于数据的理解应该明确的针对当前问题,因为当前问题能够帮助制定合适的数据分析策略,并且要注意的是数据的来源、数据的质量以及数据的偏差等。

4. 探索性数据分析

“当宇航员进入宇宙时,他们是不知道宇宙中有什么的。”同样的,数据科学家在开始对数据进行分析时,对于数据中隐含的特征等也都是未知数,他们需要穿过数据的表象去探求和开发新的数据涵义。探索性数据分析(Exploratory data analysis,EDA)是一项令人兴奋的任务,可以更好地理解数据,调查数据中的细微差别,发现隐藏模式,开发新功能并制定建模策略。

5. 模型化

探索性数据分析之后,将进入建模阶段。这个阶段中,会根据特定的机器学习问题,选择不同的算法,而机器学习算法有很多,耳熟能详的有回归、决策树、随机森林等等。

6. 部署与评估

最后,部署开发的模型,并且建立持续的检测机制,观察他们在现实世界中的变现并据此进行校准和优化。

机器学习问题类型

Markdown

一般情况下,机器学习有两种类型:

监督学习

监督学习是一种机器学习任务,其中有一个明确的目标。从概念上讲,建模者将监督机器学习模型以实现特定目标。监督学习可以进一步分为两类:

回归

回归是机器学习任务中的主力,被用来估计或预测一个数值变量。例如下面两个问题:

  • 下季度的潜在收入估计是多少?
  • 明年我可以关闭多少项交易?

分类

顾名思义,分类模型是将某些东西进行分类,用在离散型变量。分类模型经常用于所有类型的应用程序。分类模型的几个例子是:

  • 垃圾邮件过滤是分类模型的流行实现。在这里,每个传入的电子邮件根据特定的特征被分类为垃圾邮件或非垃圾邮件。
  • 流失预测是分类模型的另一个重要应用。在电信公司广泛使用的流失模型来分类给定的客户是否会流失(即停止使用服务)。

无监督学习

无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何明确的目标,他们所产生的结果可能有时难以解释。有很多类型的无监督学习任务。几个关键的是:

  • 聚类(Clustering):聚类是将类似的东西组合在一起的过程。客户细分使用聚类方法。
  • 关联(Association):关联是一种查找频繁匹配的产品的方法。零售市场分析使用关联法将产品捆绑在一起。
  • 链接预测(Link Prediction):链接预测用于查找数据项之间的连接。 Facebook,亚马逊和Netflix采用的推荐引擎大量使用链接预测算法来分别向我们推荐朋友,物品和电影。
  • 数据简化(Data Reduction):数据简化方法用于简化从很多特征到几个特征的数据集。它需要一个具有许多属性的大型数据集,并找到用较少属性来表达它们的方法。

机器学习任务到模型到算法

一旦将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。通常,模型是在多种算法上进行训练的,选择提供最佳结果的算法或一组算法进行部署。

Azure机器学习有超过30种预建算法可用于训练机器学习模型。

Markdown

结语

数据科学是一个广泛且令人兴奋的领域,而且是一门艺术和科学。这篇文章仅仅是冰山一角。如果“不知道”是什么,那么“如何”将是徒劳的。在随后的文章中,我们将探讨机器学习的“方式方法”。敬请期待!

Markdown

TalkingData发布2018年最新战略布局,探索发展新路径

Markdown

今天,TalkingData在北京举办了以“始于初心,重塑未来”为主题的产品及战略发布会,正式宣布了2018年最新战略布局,以“开放、连接、安全、智能”为核心,着力探索中国大数据行业的发展新路径。

Markdown

TalkingData创始人兼CEO 崔晓波

在国家战略政策利好下,大数据的理念普及已完成,更大的困难在于如何真正从数据中形成智能,提升商业决策与人类生活,这也是所有大数据企业共同面临的挑战。TalkingData创始人兼CEO崔晓波在发布会上强调,数据的核心不是拥有而是连接,TalkingData将突破传统的数据源公司、数据软件公司、咨询公司模式,探索创新发展路径,以“数据智能服务商”为定位,基于开放连接的理念构建整合数据产业链各方资源的平台生态,这样才能集产业之力,真正实现“数据改变企业决策、数据改善人类生活”——TalkingData自成立以来一直坚守的初心和愿景。

为此,TalkingData从战略层面对平台能力进行了全面升级,以SmartDP数据智能平台和SDMK数据智能市场作为双核心驱动,在安全合规的前提下,一方面接入各渠道数据源,打破各企业间的数据孤岛;另一方面基于强大的平台能力,为各方开放提供面向业务场景的数据智能应用与服务。

Markdown

SDMK数据智能市场

安全合规是TalkingData非常重视的基础。目前,TalkingData按照国内法规、甚至GDPR的要求,将数据安全作为全局考量,纳入所有业务和产品的设计与落地中,并在数据保护技术方面持续进行大量探索和实践。

崔晓波表示,“开放、连接、安全、智能”将成为TalkingData继续领跑行业的差异化优势与竞争力。

零售、营销、金融和智慧城市是TalkingData重点聚焦的数据智能应用领域。此次发布会上,TalkingData同时公开了针对这四大领域的重量级产品。

TalkingData特别邀请到腾讯云大数据应用产品总经理聂晶,正式介绍了TalkingData联手腾讯云发布的面向线下品牌商的数据智能产品——智选。智选有机整合了海量数据与机器学习技术,旨在解决实体门店的选址、商圈经营等场景问题,为智慧零售及多元化线下产业提供帮助。

Markdown

腾讯云大数据应用产品总经理 聂晶

此外,杭州决对信息科技有限公司CEO冯江也受邀在此次发布会介绍了旗下大数据风控、资产交易咨询、零售信贷业务咨询等产品,分享如何与TalkingData联手运用金融科技解决行业数字化转型所面临的痛点,助力行业链条发展。

Markdown

杭州决对信息科技有限公司CEO 冯江

基于与国家统计局在人口统计方面长期合作所积累的经验,TalkingData此次正式推出了以准确、动态、及时、多维度为优势的移动大数据人口统计应用——“统计魔方”。同时,以TalkingData Brand Growth品牌广告价值分析平台为代表的TalkingData营销领域产品和数据服务,也在此次发布会上宣布了重要升级。

Markdown

统计魔方

这是TalkingData成立以来的首次战略发布会,也凸显了此次全新战略布局的里程碑意义。TalkingData希望更多与合作伙伴携起手来,共建开放连接的数据产业生态,让大数据真正对人类有所裨益

关于TalkingData

TalkingData 成立于2011年,是国内领先的第三方数据智能服务商。借助以SmartDP为核心的数据智能应用生态为企业赋能,帮助企业逐步实现以数据为驱动力的数字化转型。

Markdown