T11 2018数据智能峰会完整注册流程

T11 2018马上就要开始啦,相信很多小伙伴都想问,该如何注册参会呢?本文就教给大家! PC端注册流程

1、复制下方活动链接,并在浏览器中打开

http://www.huodongxing.com/event/1451528267400

2、 点击“我要参加”,选择对应的票种及数量,如有优惠码可进行输入

Markdown

3、点击“使用”进行优惠码验证,点击“我要参加”,验证联系方式(如无优惠码,直接点击“我要参加”,验证联系方式)

Markdown

4、填写报名表单,点击“提交”,进行付款

Markdown

移动端注册流程

1、点击文末“阅读原文”

2、如有优惠码可点击“我有优惠码”进行输入

Markdown

3、点击“确认”进行优惠码验证,点击“立即报名”(如无优惠码,直接点击“立即报名”)

Markdown

关于发票

购票发票(增值税普通发票)将于活动结束后10个工作日内邮寄,开票信息及邮寄信息请发邮件至:T112018@tendcloud.com 注:需附订单截图、预定人姓名及订单号

好啦,以上就是 T11 2018的注册流程,小伙伴们,我们9月11号见!偷偷地告诉你们,后面的文章或互动活动中,小编会发放优惠码和T11门票哟,请持续关注TalkingData公众号!

T11 2018报名参会,请点击

邀您见证数据智能的突破 | T11 2018整装待发

MarkdownMarkdownMarkdown

2018年 即将揭晓

Markdown

一年一度的大数据领域盛会 T11 2018 整装待发 同一个时间——2018年9月11日 同一个地点——北京·中国大饭店

T11 2018暨TalkingData数据智能峰会,邀请您与TalkingData和5000+各行业精英一起,探讨数据赋能社会转型升级的突破性思路,分享数据驱动各行业成效提升的突破性案例,打破传统商业模式、打造开放连接生态,用突破诠释数据的力量。

1个主题

突破

突破,创造新生;突破,成就非凡;突破,颠覆时代。大数据、云计算、AI、区块链……无限的0、1世界中,一次次技术突破,带来无限价值与机遇。

所谓不破不立,TalkingData将带您一起突破、跨越,用数据洞察引领智慧突破,用突破跨越发展困境,探秘数据智能驱动的全新世界。

2个方向

智能化

数据与智能的关系就像血液与大脑,而大脑才是创造智慧的主体。当下,数据只是起点,更关键的是从数据中形成智能,用智能来提升决策的质量与效率。

成效化

当下,是否要进行数字化转型已不是问题,如何用数据智能带来效率与效益的实际提升,打通从数据到成效的闭环,才是数据驱动转型的关键所在。

3大亮点

“成效合作伙伴”典型案例首次发布 TalkingData已经进行了近一年的“成效合作伙伴”实践,此次大会将首次邀请TalkingData在零售行业的“成效合作伙伴”,解读“成效合作”的典型案例。

神秘评选结果隆重揭晓 T11近年都会发布移动应用行业的重磅奖项。本次大会上,将为大家揭晓对于金融、零售、游戏等热门行业来说,最具投放价值的受众人群到底在哪里。

“TalkingData顾问天团”首次亮相

TalkingData强势发展战略与路径的背后,隐藏着一支国际化的“顾问天团”。此次大会即将首次邀请“顾问天团”的几位资深行业专家集体亮相,分享他们的前沿视野、独到见解与丰富经验。

4年积累

从2015年首次举办,T11已进入了第4年。支撑T11在4年中逐渐成长、成熟的,也是TalkingData成立7年中的不断发展与演进。

4年来,T11汇聚海内外知名专家、学者、数据科学家等相关从业者,总结了大数据行业的发展趋势,也积累了广大合作伙伴在各行业转型方面的实践经验。

5大峰会

  • 数据智能峰会
  • 新金融峰会
  • 新零售峰会
  • 智胜营销峰会 智慧城市峰会

∞可能

互联网、金融、零售、汽车、房地产、航旅、医疗、制造、政府……

数据与各行各业相结合,产生丰富多样的应用场景,带来不可估量的商业价值与社会价值。

数据改变企业决策,数据改善人类生活,无限潜力,无限可能。

了解T11 2018详情及报名参会,请点击

2018二季度移动智能终端市场报告

2018年二季度,移动智能终端市场走向如何?安卓设备用户又在哪两个品牌之间流动?TalkingData推出《2018二季度移动智能终端市场报告》,回顾二季度移动设备市场概况,分析安卓设备用户换机行为。

Markdown

中国移动智能终端规模已达15.1亿

2018年二季度,中国移动智能终端规模增速有所回升,终端规模已达15.1亿台。

Markdown

二季度小米品牌市场份额增长明显

2018年二季度,移动智能终端市场格局整体保持稳定,TOP10品牌排名未发生变动。苹果仍然以27.71%的份额占据榜首位置,OPPO以13.66%的份额成为国内安卓厂商领头羊。二季度小米品牌市场份额取得强势增长,相比一季度上升了2.55%。

Markdown

苹果与OPPO贡献最多高份额机型

单款机型表现上,苹果品牌保持领先优势,iPhone 6、 iPhone7 Plus 、iPhone 6S包揽了机型市场份额前三位。机型市场份额TOP 20中,苹果品牌占据10款,OPPO占据6款,两家贡献了最多的高市场份额机型。

Markdown

2017年底发售机型为主要增长点

2018年二季度,机型市场份额保持增长的主要还是2017年年底发售的机型。在机型市场份额增长TOP 20中,有15款发布于去年下半年,有8款发售于去年年底的11-12月。

2018年发布的新机型中,vivo X21以0.44%的份额增长居于第三位。

Markdown

一线市场苹果领先,安卓品牌深耕三线

在设备活跃城市层级分布中,苹果用户中一线、二线城市的占比要高于其他品牌。而安卓品牌用户分布主要以三线及以下城市为主,一线及二线城市占比最高的安卓品牌为华为及三星。

Markdown

华东、华南地区偏好iPhone

在华东、华南等地区,苹果在TOP品牌中更受欢迎。而OPPO在华中、西南地区更受欢迎,华为、vivo在华中地区更受喜爱,三星在东北地区最受欢迎。

Markdown

OPPO、vivo品牌用户流通最为常见

2018二季度安卓设备换机用户中,华为用户中有62.2%、小米用户中53.5%仍会选择本品牌,二者的品牌忠诚度最高。相似的定位促进了OPPO和vivo之间的用户流通,OPPO用户换机时有23.1%选择vivo,而vivo用户换机时有28.3%会选择OPPO,在跨品牌换机中占比最高。三星用户中的87.3%在换机时不会再选择三星,品牌忠诚度在安卓TOP5品牌中最低。

Markdown

典型机型换机分析:OPPO R15 换入OPPO R15的用户中,51.9%来自OPPO本品牌,48.1%来自其他品牌,其中来自vivo的用户占比为16.0%。换入OPPO R15的机型来源中,OPPO R9排在首位,机型来源TOP10中全部为OPPO机型,品牌内机型升级是主流。

Markdown

小米新用户更多的关心车子与房子

在二季度换机时选择其他品牌的用户中,选择小米的新用户对于汽车类、房产类、家居类应用的偏好更为突出,小米新用户的生活目标更多的集中在车子、房子。OPPO新用户更关心影音娱乐,而华为新用户更关心房产、健康与商旅出行,与其成熟商务形象相符。

Markdown

Markdown

崔晓波出席造就FUTURE,探讨人本数据与智慧城市

近日,TalkingData创始人兼CEO 崔晓波出席了由中国领先剧院式演讲平台——造就发起的“2018青春上海·造就FUTURE”演讲大会,并在会上分享了《智慧城市与人本数据》的主题演讲。

Markdown

TalkingData创始人兼CEO 崔晓波

本次大会邀请了50余位来自国内外的行业领袖共同参与,就 人工智能、生命科学、城市生活、数字娱乐、空间设计、极限探索、新商业和未来人类 八大主题进行了深入的探讨。

一、从实体物质化到数字虚拟化

Markdown

TalkingData创始人兼CEO 崔晓波

截至去年,中国的移动手机数量已接近13亿部,可穿戴设备趋于4千万台,数据的体量和维度呈指数级增长,正在为世界带来颠覆性的改变。由于移动互联网的空前增长,人类行为数据也正在高速发展,崔晓波预测:未来十年,物联网的数据体量增幅将超越移动互联网。因此,看世界的角度也要从实体物质化向数字虚拟化化进行转变。

抽象化、数字化已经广泛应用于城市研究和其他商业研究,例如Google将凤凰城进行了数字化模拟,逼真到需要研究员在屏幕贴上标签去区分现实场景和模拟场景。

崔晓波认为:利用增强学习的方法,对世界进行反馈,是未来所有行业所必经的阶段。

二、智慧城市

崔晓波通过一个案例来解读人本数据如何助力智慧城市的发展,与传统的平面城市研究不同的是,TalkingData将城市人群进行了可视化模拟,通过实时数据赋予人群“动感”,形如脉搏。将人群分为红蓝两色以区分高收入和低收入人群后发现:不同阶层、不同收入的两种人群产生了“时空折叠”的现象——即虽同处一座城市,但很少产生互动交流。

崔晓波指出:这种现象不利于城市的健康发展,会给城市带来各种安全、贫富分化以及相应设施配给等一系列问题。

为了有效解决此类问题,TalkingData采集了包括线下行为、位置、轨迹,线上所有访问习惯等千万份数据进行了深度研究,通过机器学习的方法加入新的维度与思维对人群重新分类定义:比如深宅幸福奶爸、应共享经济而生的快递小哥、代驾等“城市自由工”,经常看演出、关注化妆购物等“买买买的年轻文艺女性”等等,去重新定义在飞速变化的社会中的人群属性,以对在城市生活的所有人群有一个清晰、准确的认知。

通过“城市透镜”的感知计算构建出一个不仅包含静态数据也包含动态数据的立体城市模型,一直是都TalkingData所探索的方向,崔晓波表示:大数据不应该是冷冰冰的,要以人为本,反映人的生活习惯,甚至是个性。

但仅仅反映出人的行为仍远远不够,也要追本溯源地去考虑他们背后的心智,因此TalkingData联合MIT媒体实验室成立了人本数据实验室,通过多年的经验积累去研究人类行为背后的心智,人与环境之间的关联等。

在谈到未来城市规划时,崔晓波提到,一些先进的城市规划与建设已经回到了以人为本的本质中,在地标建筑、交通等建设上市民会高度参与。

三、数据改变企业决策 数据改善人类生活

​数据要取之于民用之于民,而不仅仅组用于助力监管部门的管理。崔晓波回忆,早在TalkingData创立之初,几位创始人在公园里一直思考的问题是:数据究竟能解决什么问题?数据的终极是什么?最后得出:数据会改变企业决策;数据改善人类生活的两大结论。

在人工智能和脑科学相结合成为大数据分析领域的热点的今天,崔晓波表示:从数据的角度来看,判断智能只有一个衡量标准:能否代替人做决策。人工智能结合数据产生的决策价值质量若比人的效率高质量更好,那么它就是人工智能。

在演讲的最后崔晓波提到,大数据与城市相结合的力量是无穷的,但大数据和人工智能无法具备人所有的“正直”属性,因此它可善可恶,现今一些数字资产的拥有着和使用者已经偏离的政治的轨道,导致乱象产生,目前TalkingData最重要的是要做一家正直的大数据公司。

TalkingData一直以来都在着眼于在合法合规的基础上通过人本数据助力企业发展以及智慧城市的建设,崔晓波强调,数字化时代已经来临,TalkingData希望与更多的企业和政府机构合作,探索商业变革和智慧城市的新路径。

重磅 | iView 发布 3.0 版本,以及开发者社区等 5 款新品

Markdown

7 月 28 日,我们成功地举办了 iView 3.0 暨神秘新品发布会,这可能是前端开源圈第一次举行线下+线上的发布会。现场座无虚席,线上直播也有超过 2 万人观看。

Markdown

iView 3.0到底有哪些重要更新?5款神秘新品又是什么?接下来就为你揭秘……

View 3.0:更轻量的设计,更强大的组件和功能

我们设计了全新的 iView Logo,维持了原先 i 和 v 的造型,并让颜色更立体:

Markdown

3.x 的版本代号依然沿用 iOS 优秀独立游戏的名称,3.0 的版本代号为两周前刚发布的 RPG 游戏 Battleheart。

全民彩蛋计划

Markdown

为庆祝 iView 两周岁生日,以及 3.0 版本的发布,我们在 iView 文档 (https://www.iviewui.com)中放置了三枚彩蛋,它们埋藏在不同的页面里,可能是一段隐藏的代码,或是一段需要破解的密码等等,总之,聪明的你一定会找到并破译它们。当然,找到三枚彩蛋,你并不能继承 iView 作者的遗产!彩蛋可以兑换大量的 IO 币,详见下文开发者社区(https://dev.iviewui.com)。

设计

许多用户选择 iView,很大的原因是认可 iView 的设计,所以在 iView 3.0 里,我们对 UI 进行了进一步的优化。

iView 的 icon 采用开源项目 ionicons 提供的图标,这次也是将 ionicons 图标库从 2.0 升级至 3.0。 3.0 的图标库在命名上更加的规范,只分为 ios ,md, logo 三种,图标也比以前丰富和好看。 3.0 还新增了属性 custom,可以自定义图标。

Markdown

整体的设计风格趋向于简洁、轻量,去掉了冗余的设计,部分颜色做了调整,看起来更加醒目,比如:

Markdown

Markdown

新组件

iView 的组件是全球同类产品里数量最多,功能最丰富的,3.0 更是增加了 5 个全新的组件。

相对时间组件 Timehttps://www.iviewui.com/components/time

锚点组件 Anchorhttps://www.iviewui.com/components/anchor

面板分割组件 Splithttps://www.iviewui.com/components/split

分割线组件 Dividerhttps://www.iviewui.com/components/divider

单元格组件 Cellhttps://www.iviewui.com/components/cell

相对时间组件 Time 用于表示几分钟前、几小时前等相对于此时此刻的时间描述。相比一个固定的日期时间,它更能体现出最近的状态。

Markdown

锚点组件 Anchor 可以快速跳转到页面指定的位置,经常用于导航文章或文档中的目录结构,随着页面的滚动,它可以自动定位当前浏览区域所对应的标题,点击对应的标题,页面也会跳转到对应的位置。

Markdown

面板分割组件 Split 可将一片区域,分割为可以拖拽调整宽度或高度的两部分区域,并支持嵌套使用。

Markdown

分割线组件 Divider,常用于对不同章节的文本段落进行分割,或者对行内文字/链接进行分割,例如表格的操作列。

Markdown

单元格组件 Cell 在手机上比较常见,在 PC 上则常用于固定的侧边菜单项。Cell 可以是一个简单的菜单项,也可以跳转到其它页面,或者跟 徽标 Badge 或 开关 Switch 等组件一起使用。

Markdown

新特性

iView 3.0 有超过 40 项新特性及功能的优化。 首先是全局配置——

https://www.iviewui.com/docs/guide/global),使用 iView 3 时,可以进行全局配置组件的一些属性。目前只支持配置 transfer 和 size 两个属性。组件会优先使用 prop 设置的属性,如果未设置,再使用全局配置。

transfer:所有带浮层的组件,是否将浮层放置在 body 内,默认为不设置,详见各组件默认的 transfer 值。可选值为 true 或 false。

size:所有带有 size 属性的组件的尺寸,默认为不设置,详见各组件默认的 size 值。可选值为 default、small 或 large。

用法如下:

Vue.use(iView, {

transfer: true,
size: 'large'

});

Button 是 iView 最基础,也是最常用的组件。看似再简单不过的一个组件,其实里面有很多学问。 iView 3 废弃了 type=”ghost”,而是新增了布尔选项 ghost,定义按钮为幽灵按钮,幽灵按钮的背景是透明的,常用于有色背景上面。

Markdown

还新增了 3 个用于跳转的 props:to、replace、target:

Markdown

添加 to 属性后,按钮会以 标签的形式渲染,点击可直接跳转,也支持传入一个 vue-router 对象,iView 会做智能判断。如果使用了 vue-router,会以前端路由的形式跳转,否则会用传统的方式跳转。 replace 属性开启后,跳转不会保存历史记录。 target 的行为和 a 标签类似,比如设置在新窗口打开。 支持 跳转 的组件,除了 按钮组件 Button,还有面包屑组件 Breadcrumb、菜单组件 Menu、以及单元格组件 Cell,这些组件都具有 to、replace 和 target 三个属性,体验也完全一致。后续还会支持到更多组件,比如 Dropdown。

Markdown

router 的编程式导航跳转方便的太多,并且会渲染为带有链接属性的 a 标签,在 SEO 上也更友好。

所有支持跳转的组件,都支持了键盘按键(Mac 为 command,Windows 为 ctrl)加鼠标左键在新窗口打开的特性(无论是否设置 target=”_blank”,这种组合行为都会在新窗口打开,与浏览器原生体验完全一致)。

对话框组件 Modal 新增了三个属性:

fullscreen 全屏

draggable 拖拽

mask 是否隐藏遮罩层

开启全屏属性 fullscreen 后,会铺满整个屏幕,并且只有内容区域可滚动。 开启拖拽属性 draggable 后,会默认隐藏遮罩层,此时拖动 Modal 的标题栏就可以移动了,可以支持同时开启多个 Modal 进行拖拽。

表格组件 Table 新增了两个属性

indexMethod

tooltip

当设置列有 type=”index” 时,可以使用 indexMethod 进行自定义序号了。 给某一列设置属性 tooltip=”true” 时,当该列内容过长,一行无法显示时,鼠标经过会以 Tooltip 的形式显示完整内容。

Markdown

其余的更新内容可以到 3.0 更新日志查看。

开发者社区 iView Developer

这是发布会最劲爆的一款产品了。过去的两个多月里,我们一直在投入社区的开发中,目的就是彻底解决开发者的问题,更好地服务开发者。 社区地址:https://dev.iviewui.com/

一对一提问

遇到编程问题,怎样才能有效解决呢?

QQ / 微信群

SegmentFault / Stackoverflow 等技术社区

问同事

每个人都期望加入大群,但都在小群活跃。QQ / 微信群是程序员很活跃的地方,iView 也组建过官方的 QQ 群,累计有 5000 人左右,每天都沉淀了大量的讨论,虽然我不会一一过目,但偶尔也会快速浏览一下。其中一部分问题是文档中已有的,一部分是比较基础的用法,还有一些相对综合的问题。提问的人很多,解答的人缺少,因为群里的人,绝大多数都是和“你”一类的用户,他们加群也是想解决问题来的,但事实上,并没有得到很好和及时的解决。

Stackoverflow 就不说了,这是一个门槛较高的程序员社区,不过对于高级程序员来说,是寻找答案最好的地方。我们来说说国内的技术社区。以 SegmentFault 为例,我们以往也一直鼓励除了 bug 反馈,都到 SF 提问,因为 GitHub 只适合处理 bug 本身的问题,对于如何使用不适合在上面探讨。

至于问同事和朋友嘛,首先你得有一个懂你的领域问题的同事或朋友,而且,对方得有时间和耐心。

为什么得不到有效解决?

其实理由很简单:

“你”问的圈子的人,也都跟“你”一样,是主动提问型的。

专业问题(比如 iView / Vue.js),不是所有人都知道。

能解决你问题的人,一般都是大牛,而大牛都很忙,根本没空理你。

说的很露骨,但却一针见血。

怎样才能解决问题

如果你想问 iView 的问题,那这个世界上谁对 iView 最了解?当然是 iView 作者本人了,那自然也对 Vue.js 的问题了如指掌。如果作者解决不了的,但基本也没什么人能解决,所以,要想彻底解决问题,就是直接向 iView 作者提问。

所以,一对一提问,是 iView Developer 最核心的功能,也是最能解决你痛点的。

Markdown

高级示例

针对 Vue.js 及 iView,精心编写了大量业务中的高级示例,对 iView 官方文档作补充。比如 Table 的服务端分页及服务端排序、过滤;Upload 的手动上传及七牛云的集成。所有示例都有详细说明、源码及演示,并可以收藏。高级示例会不断增加。

高级示例也是 iView Developer 另一重要的板块,里面会陆续更新丰富而针对性的实例,以 iView 和 Vue.js 为主。高级示例具体到某个详细的问题,比如 Table 组件和 Page 组件联合使用并做服务端的分页、排序、过滤。大量的最佳实践和详尽的代码讲解、浏览体验,对于 iView 使用者来说是很好的补充。

Markdown

每周都会更新一些示例,并提示您,并且可以对示例进行收藏。

除此之外,还有独家写作、商城等功能,期待你的探索!

iView Run:随时随地运行 iView 示例

iView Run 是一个集成了 iView 环境的在线运行 iView 示例的工具,左边写代码,右边预览,可以直接编写一个 .vue 文件,它包含了 template、script、style 三部分。 编写好的示例保存后,会生成一个链接,并可以预览,链接可用于提交 bug,或分享示例给他人参考。

地址:https://run.iviewui.com/

Markdown

iView Run(beta)目前仅支持 iView 环境,暂不支持 Less 和部分 ES6 语法,这取决于你的浏览器。未来将逐步支持,并提供示例共享平台,你可以分享或浏览别人分享的优秀示例。 并且 iView 的文档未来也会集成 iView Run,文档中所有的示例未来都可以直接在 iView Run 中运行。

iView Editor:简约而不简单的 markdown 编辑器

因为在 iView Developer 中,我们开发了一个使用起来还不错的 markdown 编辑器,所以把它单独开源出来。 iView Editor 参考 Github 的设计风格,可以在 markdown 和预览之间进行切换,当然,你喜欢实时预览的话,也是支持的。

地址:http://editor.iviewui.com/

GitHub:https://github.com/iview/iview-editor

Markdown

iView Weapp 2.0

我们在一个多月前发布了微信小程序 UI 组件库 iView Weapp,这次发布会我们带来了它的 2.0 版本。 2.0 文档:https://weapp.iviewui.com/ GitHub:https://github.com/TalkingData/iview-weapp

iView Weapp 2.0 新增了 7 个全新的组件: 索引选择器 Index

吸顶容器Sticky

滑动菜单 Swipeout

倒计时 CountDown

分隔符 Divider

折叠面板 Collapse

页底提示 LoadMore

扫描小程序码,立即体验 iView Weapp 2.0:

Markdown

iView Admin 2.0

iView Admin 2.0 也进行了一波大的升级:

基于 Vue Cli 3.0 重构所有代码 重写重要组件 全新权限方案 多级菜单路由 Mock 请求模拟 全局配置 清晰数据流

体验iView Admin 2.0: https://iview.github.io/iview-admin

GitHub:https://github.com/iview/iview-admin

7月28日也是 iView 的两周岁生日,发布会结束后,我们举行了生日会。特别定制的蛋糕太萌了,大家纷纷拍照留念。

Markdown

以上就是本次 iView 3.0 发布会的核心内容,完整的发布会视频之后会在 iView Developer 发布。

简明数据科学 第八部分:回归模型中的定性变量

Markdown

TalkingData 张永超

在之前的文章中,我们讨论了回归模型。费尔南多选择了最好的模型,他建立了一个多元回归模型,该模型的具体形态如下:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

该模型构建了一个根据发动机的大小、车辆的马力和宽度的函数,来预测或评估车辆的价格。而且该模型中所有的预测因子都是数值型的。

但是,如果有定性变量呢?定性变量是如何用来增强模型?定性变量又改如何解释呢?

这篇文章我们将针对定性变量进行讨论。费尔南多得到了两个类似的定性变量:

  • fuelType:燃油的种类。该值可以是汽油或者柴油;
  • driveWheels:驱动的种类。有三个可能的值,4轮驱动、前轮驱动和后轮驱动,分别表示为4WD、RWD、FWD。

Markdown

费尔南多希望找出这些定性变量对汽车价格的影响。

概述

定性变量是哪些非数值型的变量。适合用于将数据分类,也称为分类变量或者因素。此类变量带有一定的层级,而层级是特定定性变量的特殊值。

燃油种类由两个独特的值,汽油和柴油。这意味着燃料类型有两个因素。

驱动有三个独特的值。四驱、后驱和前驱。这意味着驱动有三个因素。

当回归模型使用定性变量的时候,需要将定性变量转变为虚拟变量,也就是简单的0和1。例如,样本数据中有5辆车的数据,每辆车都有柴油或汽油的燃油类型。

Markdown

燃料类型是一个定性变量。它有两个级别(柴油或天然气)。统计软件创建一个虚拟变量,创建一个名为fuelTypegas的虚拟变量,该变量需要0或1个值。如果燃料类型是汽油,那么虚拟变量是1,否则它是0。

写成数学形式如下:

  • xi = 1 如果燃油类型时汽油
  • xi = 0 如果燃油类型时柴油

接下来看看定性变量在回归模型中的表现,当只有价格和燃油类型的时候,简单回归模型可以提供如下的参数系数:

Markdown

只有一个系数斜率和一个截距,回归模型为定性变量的因子值(在此种情况下为汽油)创建虚拟变量。

如果虚拟变量为0,即汽车的燃油类型是柴油,则 价格= 18348 + 0×(-6925)= $18348;

如果虚拟变量为1,即汽车的燃油类型是汽油,则 价格 = 18348 + 1 x (-6925) = $11423。

处理双因素水平的定性变量的方式是明确的,即构建虚拟变量,其值非0即1。但是当具有多余两个以上级别的变量该如何进行处理呢?例如下例。

驱动方式是一个具有三个因素的定性变量。在这种情况下,回归模型会创建两个虚拟变量,假设样本数据有4辆车:

Markdown

两个虚拟变量会被创建:

driveWheelsfwd:如果驱动方式是前驱,则为1,否则为0

driveWheelsrwd:如果驱动方式是后驱,则为1,否则为0

数学形式如下:

  • 如果驱动方式为前驱,xi1 = 1 ,否则 xi1 = 0
  • 如果驱动方式是后驱,xi2 = 1 ,否则 xi2 = 0

需要注意的是,4驱并不存在于虚拟变量中。

那么他们最终是如何在回归模型中表现出来呢?回归模型对待此类虚拟变量的方式如下:

Markdown

首先,回归模型为价格估算创建了一个基准线,基线中并不包含定性变量对应虚拟变量的均值,此时的结果为截距值,基线方程为4驱方式的平均价格;

对于前驱:车辆的平均价格被估算为 基线 + 前驱系数,即 价格 = 7603 + 1 x 1405 + 0 x 10704 = $9008,意味着,前驱车辆的价格比四驱高出1405美元;

对于后驱:车辆的平均价格被估算为 基线 + 后驱系数,即 价格 = 7603 + 0 x 1405 + 1 x 10704 = $18307,意味着,后驱车辆的价格比四驱高出10704美元。

所有具有两个以上因子值的定性变量和具有双因子值的定性变量处理方式类似。

模型构建

有了对定性变量的处理方式的了解,费尔南多开始将这些定性变量应用在他的模型中,他的原始模型为:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

他添加了两个定性变量到模型中,燃油类型和驱动方式,于是模型被改写为:

价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.燃油类型 +β5.前驱 + β6.后驱。

于是费尔南多尝试进行了一些训练工作,得到了如下的系数:

Markdown

模型现在为:

价格 = -76404.83 + 57.20 发动机大小 + 23.72 马力 + 1214.42 宽度 – 1381.47 燃油类型 -344.62 前驱 + 2189.16 后驱

这里有定量和定性变量的混合,这些变量是彼此独立的。

从结果中可以看到,调整的R平方为0.8183,意味着模型可以解释训练数据中81.83%的数据异动。但是并不是说所有的定性变量都有意义,在某些情况下定型变量对模型并没有任何意义。

结语 这个模型并不比原始模型好,但是也能够完整的完成工作,我们理解定性变量在回归模型中解释方式,显然,马力、发动机大小和宽度为因子的原始模型更好,但是这些因子是独立处理的。费尔南多思考:

马力、发动机大小和宽度之间有什么联系?

他们之间的联系是否可以模型化?

在下篇文章中将解决这些问题,将解释回归模型交互的作用和局限问题。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

简明数据科学 第六部分:模型选择方法

简明数据科学 第七部分:对数回归模型

Markdown

简明数据科学 第七部分:对数回归模型

Markdown

作者丨Pradeep Menon

原文丨 https://towardsdatascience.com/data-science-simplified-part-7-log-log-regression-models-499ecd1495f0

译者丨TalkingData 张永超

在本系列的内容中,我们已经讨论了简单线性回归模型,以及多元回归模型和选择正确模型的方法。

费尔南多现在已经构建了一个很好的模型。

Markdown

price = -55089.98 + 87.34 engineSize + 60.93 horse power + 770.42 width

但是,费尔南多依然有一下考虑:

  • 如何使用常见的比较单位来估算价格变化?
  • 关于发动机尺寸、马力和宽度的对应价格有多少弹性变化?

在本篇内容中,我们将解决这些问题。本文将介绍对数回归模型

概述 为了了解对数回归模型,首先需要理解导数、对数、指数的概念,进而理解弹性的概念。

**导数: ** 导数是一种表示变化的方式 —- 一个函数在一个给定点上的变化量。

如一个变量y是x的函数,则将y定义为:

y = f(x)

则在y上关于x的导数,表示为:

dy/dx = df(x)/dx = f'(x)

而这种表示的含义如下:

y相对于x变化的变化,即,如果x变化,y会有多少变化?

这正是费尔南多所需要的,他想知道的价格正是相对于变量的变化。

之前多元回归模型的一般形式如下:

Markdown

也就是说费尔南多建立以下模型:

price = β0 + β1 . 发动机大小 i.e. 价格是一个关于发动机大小的函数。

费尔南多所构建的模型主要的目标是预测汽车的价格,而其价格方面取决于发动机的大小,其模型也正好表达了发动机大小的变化对应价格的变化的规律。

然而,可能并非如此,线性模型是假定数据是线性关系的,如下:

y = mx + c

如果计算y上的导数,则会给出如下的结果:

dy/dx = m . dx/dx + dc/dx

相对于发动机本身的变化,其值始终为1,例如dx/dx = 1

一个常数相对于任何东西的变化其导数始终为0,因为它是一个常数,例如dc/dx = 0

那么公式就变成了:

dy/dx = m

在发动机大小上应用价格导数将只会关联与发动机大小的系数。

面对这种情况,必须想办法来改变它,那么接下来就看看指数和对数。

指数:

指数是一个具有两个运算符的函数,基(b)和指数(n),被定义为b^n,其形式如下:

f(x) = b^x

基数可以使任何的正数,欧拉数(e)是统计中最为常用的基数。

在几何上,指数关系具有以下的结构:

Markdown

  • x的增加不会导致y的相应增加,直到到达某个阈值
  • 到达阈值后,x每增加一小部分,y会急速的上升

对数

对数是一个有趣的符号。在回归模型中,对数有着个性化的特质,对数的基本属性是它的基数,对数典型的基数是2、10和e。

如下例:

  • 多少个2相乘等于8?2 x 2 x 2 = 8 答案是 3
  • 也可以表示为 log2(8) = 3

可以读作 以2为底的8的对数为3

对数还有另一个共同的基数,被称为欧拉数(e),其近似值为 2.71828,在统计学中被经常使用。以e为低的对数称为自然对数。

对数也有很好的变革能力,对数可以将指数关系演化为线性关系。例如下图显示了y和x之间的指数关系:

Markdown

如果对数应用于x和y,则log(x)和log(y)之间的关系是线性的。它看起来像这样:

Markdown

弹性:

弹性是衡量一个经济变量对另一个经济变量的响应程度。假设我们有一个函数:Q = f(P)那么Q的弹性定义为:

E = P/Q x dQ/dP

dq/dP是P中Q变化的平均变化

**结合在一起: ** 现在让我们把这三个数学角色放在一起,导数、对数和指数。他们的结合规则如下:

e的对数是1,即log(e)= 1

指数的对数是指数乘以基数

log(x)的导数是:1 / x

设想一个函数y表示,如下:

y = b^x

=> log(y) = x log (b)

那么这是否意味着是线性回归模型?我们可以做数学演化以利用导数、对数和指数吗?我们是否可以重写线性模型方程来找出x的变化率呢?

  1. 首先,让我们将y和x之间的关系定义为指数关系。
  2. y = α x^β
  3. 首先将其表示为log-log的函数:log(y)= log(α)+β.log(x)
  4. 方程y = α x^β看起来并不像是回归模型:Y =β0+β1,其中β0= log(α),β1=β。这个等式现在可以重写为:log(y)=β0+β1.log(X1)

但是如何表达弹性关系呢?我们取log(y)和x的导数,得到如下结果:

  • d. log(y)/ dx = β1. log(x1)/dx
  • => 1/y . dy/dx = β1 . 1/x => β1 = x/y . dy/dx
  • β1的方程是弹性。

构建模型

搞清楚了这些概念后,费尔南多重新构建了一个模型,如下:

Markdown

log(价格) = β0 + β1. log(发动机大小) + β2. log(马力) + β3. log(宽)

他希望根据发动机尺寸,马力和宽度的变化来估算汽车价格的变化。

费尔南多最终得到了如下的参数:

Markdown

该模型的方程是:

log(价格) = -21.6672 + 0.4702.log(发动机大小) + 0.4621.log(马力) + 6.3564 .log(宽)

以下是该模型的解释:

  • 所有系数都很重要
  • 调整的R平方为0.8276,说明该模型解释了数据变化的82.76%
  • 如果发动机尺寸增加4.7%,那么汽车价格将上涨10%
  • 如果马力增加4.62%,那么汽车价格将上涨10%
  • 如果汽车的宽度增加6%,那么汽车的价格将增加1%

模型评估

费尔南多现在已经建立了对数回归模型。他评估模型在训练和测试数据上的表现。

回想一下,他已经将数据分成了训练和测试集,训练数据用于创建模型,测试数据是不可见的数据。测试数据的性能是真正的考验模型的地方。

Markdown

在训练数据上,模型表现相当好,调整的R平方为0.8276,说明该模型可以解释82.76%的训练数据变化。为了使模型可以最终被接受,还需要在测试数据方面表现良好。

费尔南多测试测试数据集的模型性能,该模型计算测试数据的调整R平方为0.8186。这意味着即使对于看不见的数据,模型也能解释81.86%的变化。

请注意,该模型估计log(价格),而不是汽车的价格。要将估计的log(价格)转换为价格,需要进行转换。

转换是将log(价格)作为基础e的指数。e^log(价格)= 价格

结语

统计学习奠定了基础,假设检验讨论了空假设和替代假设的概念,简单的线性回归模型使回归简单,然后,进入多元回归模型的世界,然后讨论模型选择方法。在这篇文章中,讨论了对数回归模型。

到目前为止,构建的回归模型只有数值独立变量。下一篇文章将讨论相互作用和定性变量的概念。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

简明数据科学 第六部分:模型选择方法

Markdown

简明数据科学 第六部分:模型选择方法

Markdown

作者丨TalkingData 张永超

在上一篇(本系列其他文章见文末)文章中,我们介绍了多元回归模型,费尔南多构建了一个多元线性回归模型,接受五个参数来预测汽车的价格。

Markdown

从最后的结果来看,费尔南多的确构建了一个很好的模型,但是他还想选择出最佳的输入参数。那么这篇文章我们将讨论模型的选择方法

基本概念

模型选择方法的思路其实比较直观,只要回答了下面的问题即可:

如何为最优模型选择正确的输入变量?

开始之前,我们需要了解如何定义最佳模型?

Markdown

最佳模型是适合评估指标最佳值的数据模型。

模型的评估有很好的指标,而调整R平方是多元回归模型的最好评价指标。

对于选择最佳参数集来说,有三种方法,他们是:

最佳子集法 前向逐步选择法 后向逐步选择法

接下来分别对这三种方法进行介绍。

Markdown

如上图所示,假设我们有k个变量,那么最佳子集法的过程如下:

  1. 从空模型开始,即没有预测器的模型,我们称之为M0;
  2. 用1个变量找出最佳模型,此时,该模型是一个简单的单一变量回归模型,只有一个独立变量,称之为M1;
  3. 用2个变量找出最佳模型,该模型是一个只有两个独立变量的回归模型,称之为M2;
  4. 用2个变量找出最佳模型,该模型是一个有三个独立变量的回归模型,称之为M3;
  5. 重复这些步骤,只到找出最佳模型的所有预测变量的组合。 对于k个变量,我们需要从下面的模型中找出一组表现最佳的模型:
  • M1: 具有1个预测器的最优模型;
  • M2: 具有2个预测器的最优模型;
  • M3: 具有3个预测器的最优模型;
  • Mk: 具有k个预测器的最优模型。

然后选择M1…Mk中最优的模型,也就是最适合的模型。 最佳子集法是一个复杂的处理过程,不仅需要梳理了预测变量的列表,而且还需要选择最佳的变量组合。最佳子集法虽然看似简单,但是它有着子集的困难和挑战。

最佳子集法为每个预测变量及其组合创建一个模型,这意味着我们正在为每个变量组合创建模型。模型的数量可以是一个非常大的数字。

如果有2个变量,那么有4个可能的模型,如果有3个变量,那么有8个可能的模型。一般来说,如果有p个变量,那么就有2 ^ p个可能的模型,这是相当多的模型可供选择。想象一下,有100个变量(很常见)。将会有2 ^ 100个可能的模型。令人难以置信的数字。

在费尔南多的情况下,只有5个变量,他将不得不创造和选择2 ^ 5个模型,即32个不同的模型。

向前逐步选择法

Markdown

至此,对最佳子集法已经有了一个了解了,但是它需要很多的计算能力,也相对比较耗时,而前向逐步选择法试图环节这种困难。

依然,假设我们有k个变量,则逐步前进选择法的步骤如下:

  1. 从空模型开始,即没有预测器的模型,我们称之为M0。将预测变量添加到模型中,一次仅添加一个;
  2. 用1个变量找出最佳模型,此时,该模型是一个简单的单一变量回归模型,只有一个独立变量,称之为M1;
  3. 在M1的基础上,增加一个变量,用2个变量找出最佳模型,称之为M2;
  4. 在M2的基础上,增加一个变量,用3个变量找出最佳模型,称之为M3;
  5. 重复这些步骤,只到找出最佳模型Mk,即有k个变量的模型。

对于k个变量,我们需要从以下一组模型中选择最优模型:

  • M1: 具有1个预测器的最优模型;
  • M2: 具有2个预测器的最优模型,该模型是M1 + 一个额外的变量;
  • M3: 具有3个预测器的最优模型,该模型是M2 + 一个额外的变量;
  • Mk: 具有k个预测器的最优模型,该模型是Mk-1 + 一个额外的变量。

再次选择M1 …

Mk中的最佳模型,即具有最佳拟合的模型

与最佳子集法相比,前向逐步选择法法创建更少的模型。如果有p个变量,那么将会有大约p(p + 1)/ 2 + 1个模型可供选择,远低于最佳子集方法中的模型选择。假设有100个变量,则基于前向逐步法创建的模型的数量是100×101/2 + 1,即5051个模型。

在费尔南多的情况下,只有5个变量,他将不得不创建和选择5 6/2 + 1*模型,即16个不同的模型。

后向逐步选择法

Markdown

现在我们已经理解了模型选择的前向逐步选择过程,接下来看看后向逐步选择法,这是前向逐步选择法的反向。前向逐步选择从没有变量的模型即空模型开始,相比之下,后向逐步选择是从所有变量开始的。后向逐步选择法的过程如下:

假设我们有k个变量,则逐步前进选择法的步骤如下:

  1. 从一个完整的模型开始,即包含所有预测变量的模型,我们称这个模型为Mk。从完整模型中删除预测变量。一次一个;
  2. 用k-1个变量找出最优模型,从Mk中删除一个变量。计算所有可能组合模型的性能。选择具有k-1个变量的最佳模型。我们称这个模型为Mk-1;
  3. 用k-2个变量找到最优模型,从Mk-1中删除一个变量。计算所有可能组合模型的性能。选择具有k-2个变量的最佳模型。我们称这个模型为Mk-2;
  4. 重复这些步骤,只到找出最佳模型M1,即有1个变量的模型。

对于k个变量,我们需要从以下一组模型中选择最优模型:

  • Mk:具有k个预测值的最优模型;
  • Mk-1:具有k-1个预测变量的最优模型。这个模型是 MK – 一个额外的变量;
  • Mk-2:具有k-2个预测变量的最优模型。这个模型是 MK – 两个额外的变量;
  • M1:具有1个预测器的最优模型。

模型构建

了解了模型选择的方法之后,让我们回到费尔南多的问题,回想一下前一篇文章,费尔南多有6个变量发动机大小,马力,峰值RPM,长度,宽度和高度,他想通过创建一个多元回归模型来估算汽车价格。他想保持模型的平衡并选择最佳的模式。

于是,费尔南多准备使用前向逐步选择法,统计软件包计算出了所有可能的模型以及输出M1到M6的结果。

Markdown

让我们解释上述结果:

  • Model 1:只有一个预测器,仅使用发动机的大小作为变量,调整的R平方为0.77;
  • Model 2:仅有两个预测器,使用发动机大小和马力作为变量,调整的R平方为0.79;
  • Model 3:仅有三个预测器,使用发动机大小、马力和宽度作为变量,调整的R平方为0.82;
  • Model 4:仅有四个预测器,使用发动机大小、马力、宽度和高度作为变量,调整的R平方为0.82;
  • Model 5:仅有五个预测器,使用发动机大小、马力、宽度、高度和峰值RPM作为变量,调整的R平方为0.82;
  • Model 6:仅有六个预测器,使用发动机大小、马力、宽度、高度、高度和峰值RPM作为变量,调整的R平方为0.82。

最终,费尔南多选择了最好的、最简单的模型。在上述结果中,Model 3 使用发动机大小、马力和宽度作为变量,该模型能够得到0.82的调整R平方,即说明该模型可以解释82%的训练数据变化,其他Model 4、5、6虽然使用了更多的变量,但是得到的调整R平方依然是0.82,相对于Model 3却更加的复杂。

在费尔南多的统计软件包中,同样输出了如下的系数结果:

Markdown

根据发动机尺寸,马力和宽度估算价格。

价格 = -55089.98 + 87.34 发动机大小 + 60.93 马力+ 770.42 * 宽度

模型评估

费尔南多选择了最好的模型,该模型将使用发动机尺寸,马力和汽车宽度估算价格。他希望评估模型在训练和测试数据上的表现。

之前,他已经将数据分成了训练集和测试集,费尔南多使用训练数据训练模型,对于模型来说此时测试数据是不可见的数据。费尔南多评估模型在测试数据上的表现。

Markdown

在训练数据上,模型表现相当好,调整的R平方为0.815,说明该模型可以解释81%的训练数据变化。但是,对于该模型来说,在测试数据集上的表现更为重要。

Markdown

费尔南多测试了模型在测试数据集上的表现性能,得到该模型在测试数据中的调整的R平方为0.7984。这意味着即使对于看不见的数据,模型也可以解释79.84%的变化。

结语

现在,费尔南多有了一个简单而且有效的模型来预测汽车的价格。但是,发动机大小,马力和宽度的单位是不同的。于是他想到了如下的几个问题:

如何使用常见的比较单位来估算价格变化?

关于发动机尺寸、马力和宽度的对应价格有多少弹性变化?

下一篇文章我们将讨论转换多元回归模型以及计算弹性的方法。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

从数据运营到数据变现,TalkingData证券行业实战分享研讨会在深圳召开

2018年7月11日下午, TalkingData在深圳举行了证券行业数据运营实战研讨会,华南地区证券行业的科技部门与网络金融部门的相关负责人参加了本次研讨会,参会者覆盖了华南地区90%以上的证券公司。此次会议以“数据运营实战分享”为主题,探讨了数据场景变现的整体思路,从业务运营指标建设、数据场景变现、精准营销案例、大数据和人工智能应用等方面,面向证券行业用户介绍行业成熟案例和解决方案。

TalkingData从多年的证券行业实战角度出发,认为证券行业的数据运营要升级现有的思路,从客户视角转向用户视角,从获客发展转向存量经营,从产品关注转向用户关注,从投资通道转向财富管理。通过养数据、看数据、用数据的方式,打通内外部数据和行为数据,实现数据资产的统一视图。通过业务运营指标体系建设,帮助证券公司关注用户转化旅程、提升运营效率、降低运营成本、发现数据变现的机会。建设数字营销闭环缩短用户转化旅程,提升客户活跃度和客户价值。

MarkdownTalkingData高级副总裁 支宝才

TalkingData高级副总裁支宝才出席了本次会议。他在开场演讲中指出,现阶段是证券行业实现业务转型的关键时间点。中国证券行业已经完成了体系、指标的建设,在今天,大家更关注如何通过数据运营获得实际的业务收入。随着客户互联网使用习惯的改变,未来的获客、经营、资产提升、业务收益都将更多地转向移动互联网平台,领先的券商已经把移动互联网变成客户运营的主战场。

Markdown国海证券的数据运营专家 蒋愉

作为第一个重量级嘉宾,国海证券的数据运营专家蒋愉分享了国海证券建设指标体系的历程。通过证券行业指标体系的建立和分析来发现业务问题背后原因,根据数据分析结果制定运营策略,建立数据监测优化的闭环式模型,帮助国海证券实现从短期KPI实现到长期目标达成,再到数字化战略部署的提升。蒋愉表示,国海证券的数据化运营分为三个阶段:即探索、实践和精细化运营,而数据指标体系及平台的搭建是从实践到精细化运营阶段的重要基石,其可以帮助证券公司实现从指标洞察到运营优化提升。

国海证券与TalkingData合作搭建的指标系统投入生产之后,其使用率达到了80%以上,有效地帮助产品、运营各线完成了数字化运营的策略制定到落地实施。蒋愉指出,在推进该平台的使用过程中,国海证券通过OKR指标分解和领导层驱动提升了用户使用指标体系平台的频率,通过数据人员对指标价值的案例梳理和演示让大家进一步理解指标价值和应用方法,并通过收集客户需求及敏捷迭代提升了用户体验。

MarkdownTalkingData证券行业咨询总监 赵博

TalkingData证券行业咨询总监赵博从多年证券行业数据运营实战角度,分享了证券行业数字化运营体系建设的思路和案例,主要覆盖券商互联网转型、数据化运营体系建设思路、数据智能平台三大方面。赵博认为证券行业流量已趋于饱和,大型券商仍在跑马圈地布局年轻人群;中小型券商急于在同质化的服务中寻求自己的差异,投资者教育会是新的流量来源。市场上逐渐出现了产品、功能、内容满足客户所有需求的产品,行业垄断态势逐步显现。通过运营平台的建设完成精准服务、提升客户粘性成为未来主旋律。

赵博提出,指标体系是指导运营的底盘,应从指标体系中挖掘用户动向、探索运营场景,并反馈回指标体系持续监控形成业务闭环。有效的指标体系能够连接前端互联网行为数据和后端商业需求,数据运营是全局概念,是数据、运营、产品、推广等部门的多方协作,是一个全策全力的作战体系。证券公司需要建立数据运营和营销中台、以客户为中心进行数据化运营,具备同互联网企业一致的数据运营能力,将流失预测模型与客户体系分类有机结合,使数据和营销产生联动,让营销结果最大化。 Markdown广发证券大数据总监 王永强博士

华南地区领先的证券公司广发证券出席了本次研讨会。广发证券大数据总监王永强博士以“大数据和人工智能助力证券业务创新”为主题,结合自身互联网巨头和证券行业的从业经验,分享了人工智能和大数据发展趋势和广发证券的实践。 王永强博士指出,人工智能在国外的券商业务中已经有典型的应用场景,并从智能证券业务、智能监管以及数据化运营三方面显示了其巨大的价值和潜力。广发证券通过建立数字化平台和大数据平台,展开不同维度的数据分析和与模型分析,利用用户画像和指标分析来完善客户综合体系评估,实现公司的数字化运营能力的提升。最后王永强博士从损益、诊断、风控等多个方面介绍了广发证券在大数据和人工智能方向的探索。

MarkdownTalkingData高级产品总监 刘彬

在接下来的分享中,TalkingData高级产品总监刘彬指出数字化运营已经成为现今互联网业务或偏向互联网业务的核心方法论。现有交易类APP已无法满足O2O的传播和时效性,证券行业数据体量的消化能力、数字化处理能力都亟待提升, 未来需要从用户概念、场景(情景)感知、营销及归因、分析诊断四大方向着手,通过数据的驱动做到自动化业务的闭环。刘彬表示TalkingData的AE系列产品和数字营销闭环平台是为证券行业数据运营开发设计,可以作为证券行业的数据运营和营销的中台,洞察用户行为,优化产品功能,建立营销场景,分析营销活动的ROI,迭代营销方案,实现数据营销闭环。利用数据和模型进行数据试验,不断尝试、试错、总结、学习,最后完成精细化运营。

MarkdownTalkingData首席布道师 鲍忠铁

会议的主持人TalkingData首席布道师鲍忠铁则在分享中强调了数据增长对于企业的重要意义,他提出了证券行业数据增长的组织建设、工具建设、体系建设、数据增长营销平台建设的方法和建议,并总结了证券行业数据增长的八条经验:

  • 数据增长是个系统工程,必须所有团队参与,领导全力支持;
  • 产品是数据增长的基础,产品优化是数据增长首要任务;
  • 多次数据实验才可以形成标准营销方案,经验需要延续;
  • 电商的五次曝光理论仍然成立,单个用户的营销推送不要超过5次/天;
  • 初次数据实验的成功率在三分之一,转化率为1%是一个可以接受的结果;
  • 场景(事件)营销的转化率最高,业务规则和模型应用同样重要;
  • 指标建设是数据增长的基础工作,指标分析的目的 是from insight to action;
  • 营销中台是数据增长和提高产能的有效工具,建立自我强化的闭环。

研讨会上设置了问答环节,证券行业的同仁积极向演讲嘉宾提出疑问、进行互动,深入讨论了证券行业数据运营中的实际困难和解决方法。TalkingData今后也将继续举办此类活动,分享行业实战经验,与企业共同探索、携手成长。

Markdown

简明数据科学 第五部分:多元回归模型

Markdown

作者:张永超

上一节中,我们讨论了费尔南多的故事,一个数据科学家想买一辆车,于是他构造了一个车辆的价格和发动机大小的简单的回归模型来预测。

Markdown

费尔南多创建的回归模型预测了基于发动机大小的车辆价格。仅使用一个自变量来预测因变量的模型。

该简单的线性回归模型可以被表示为:

price = β0 + β1 x engine size

Markdown

按照最终的模型结果,车辆的价格可以被简单预估为:

price = -6870.1 + 156.9 x engine size

该模型从两方便进行评估:

  • 健壮性 – 使用假设检验
  • 准确度 – 使用确定系数例如R平方检验
  • 回想一下,R平方的度量解释了模型预测值与真实值之间的平均方差分数,位于[0,1]之间,越高的分值表示该模型能够更好的解释方差。而费尔南多的模型最终的到的R平方为0.7503,也就是在训练集上得到75.3%的分值,预示着该模型可以解释超过75%的变化。

然而,费尔南多想要更好的结果。

他考虑到: 如果我可以用更多的数据来送给模型?它会提高准确性吗? 于是,费尔南多决定通过给模型提供更多的输入数据,即更多的自变量来增强模型。他现在进入了多变量回归模型的世界。

基本概念 线性回归模型提供了一个监督学习的简单方法,其简单但是有效。

回想一下,线性意味着如下的含义:数据点几乎排列在一条直线或者近乎直线的附近,并一直延伸。线性表明,自变量和因变量之间的关系可以用直线来表示。

直线的方程式是y = mx + c,其中一维是y轴,另一维是x轴,可以在二维平面上绘制出来:

Markdown

如果将这种关系进行泛化,则得到:

y = f(x)

其意思是:将y定义为x的函数。例如将自变量定义为独立变量的函数。

如果因变量需要用一个以上的自变量来表示呢?广义函数变为:

y = f(x, z)

即将y定义为一些函数或者组合多个参数的函数。

此时便是三维的了,包含x轴、y轴、z轴,绘制出来类似下图:

Markdown

现在,我们有多个维度,我们需要将y定义为组合x和z的函数。

对于简单线性回归模型来说,直线表示y是x的函数,现在我们有一个额外的维度z,如果将z附加二维平面会发生什么呢?它会变成一个平面。

Markdown

该平面是将y表示为x和z的函数。推断线性回归方程,可以表示为:

  • y = m1.x + m2.z+ c
  • y是因变量,即需要评估和预测的变量
  • x是第一个自变量,即可控的变量,也是第一个输入
  • m1是x的斜率,决定了线x的倾斜角度
  • z是第二个自变量,即可控的变量,是第二个输入
  • m2是z的斜率,决定了线z的倾斜角度
  • c是截距,当x和z为0时确定y值的常数 这是多元线性回归模型的起源,有多个输入变量用于估计目标,具有两个输入变量的模型可以表示为:

y = β0 + β1.x1 + β2.x2 + β3.x3

多变量回归模型的广义方程可以是:

y = β0 + β1.x1 + β2.x2 +….. + βn.xn

模型构建

现在熟悉多元线性回归模型的概念,让我们回到费尔南多。

费尔南多向他的朋友伸出更多的数据,他要求他提供有关汽车其他特性的更多数据。

Markdown

以下是他已有的数据点:

  • make: 车辆品牌
  • fuelType:所使用的动力燃料
  • nDoor:车门数量
  • engineSize:发动机大小(马力)
  • price:最终的价格
  • 他有拿到了一些新的数据点:
  • horsePower:马力
  • peakRPM:最大功率输出时的转速
  • length:车辆长度
  • width:车辆宽度
  • height:车辆高度 费尔南多现在想建立一个模型,根据附加数据点预测价格。

他制定的多元回归模型是: 根据engineSize、horsePower、peakRPM、length、width和height估算价格。

定义的函数形如:price = f(engine size, horse power, peak RPM, length, width, height)

代入多元线性方程为:price = β0 + β1. engine size + β2.horse power + β3. peak RPM + β4.length+ β5.width + β6.height

费尔南多将这些数据输入到软件统计包中,来计算和预测相关的参数,最终得到如下的结果:

Markdown

多元线性回归模型为价格估算提供以下等式:

price = -85090 + 102.85 engineSize + 43.79 horse power + 1.52 peak RPM – 37.91 length + 908.12 width + 364.33 height

模型解读

多变量模型的解释提供了每个独立变量对因变量(目标)的影响。

上述等式提供了对价格平均值的估计。每个系数的解释与所有其他预测因子保持不变。

Engine Size:如果发动机尺寸增加一个单位,则平均价格将增加102.85美元。 Horse Power: 如果马力增加一个单位,平均价格增加43.79美元。 Peak RPM:如果Peak RPM增加一个单位,平均价格增加1.52美元。 Length:如果长度增加一个单位,则平均价格下降37.91美元(长度具有-ve系数)。 Width:如果宽度增加一个单位,平均价格增加908.12美元。 Height:如果高度增加一个单位,则平均价格增加364.33美元 模型评估 该模型已建成。它被解释。所有的系数都很重要吗?哪些更重要?模型解释多少变化?

Markdown

回想关于t-stat,p值和决定系数的定义的讨论。这些概念也适用于多元回归模型。该模型的评估如下: coefficients:所有系数都大于零。这意味着所有变量对平均价格都有影响。

t-value: 除长度外,所有系数的t-value均显着高于零。对于长度来说,t-stat是-0.70。这意味着汽车的长度可能不会影响平均价格。

p-value: 除长度之外,其他变量的p值的概率非常低。长度的p值是0.4854。这意味着观察到的t-stat偶然的概率是48.54%。这个数字相当高。

回想一下关于R平方如何帮助解释模型变化的讨论。当更多变量添加到模型中时,R平方不会减小,它只会增加。但是,必须有一个平衡。经过调整的R平方努力保持这种平衡。调整后的R平方是R平方的修改版本,它已根据模型中预测变量的数量进行了调整。调整的R平方补偿变量的增加,并且只有在新术语增强模型时才增加。

调整后的R-squared:R平方值是0.811。这意味着该模型可以解释训练数据中81.1%的变化。这比以前的型号(75.03%)要好。 结语 费尔南多现在有更好的模型。但是,他感到困惑。他知道汽车的长度不会影响价格。

他想知道: 如何选择模型构建的最佳变量集?有什么方法可以选择最佳的变量子集吗?

下一节,我们将讨论变量选择方法。

相关阅读:

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学 第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型