TalkingData-2018年6月移动游戏Benchmark

2018年Q2移动游戏行业盘点:主流明星游戏保持稳定,多款新上线作品得到市场认可:

2018年第二季度,移动游戏行业整体呈现稳定发展的态势,主流明星作品在用户中仍具有吸引力,沉淀了广泛的用户基础;新上线游戏则通过深挖垂直市场或细分人群,逐步抬高了在市场中的地位。

从重点游戏看,《绝地求生》系列2款作品进一步稳固了在“吃鸡”市场的领先地位;《第五人格》凭借与《黎明杀机》制作公司Behaviour的合作,利用玩法移植赢得市场认可;具有IP情怀的《武林外传》、《QQ炫舞》等经典游戏开始升温;迎合世界杯热点的实况足球、FIFA足球等体育作品适时推出;主打二次元风格的《非人学园》、《魔力宝贝》等游戏不断获得成长。

从Benchmark数据表现看,移动游戏用户在Android和iOS平台的各项指标相对稳定,活跃、留存、频次、时长以及付费等方面的表现延续Q1稳健趋势。

2018年6月移动游戏Benchmark解读:

付费率:2018年6月,移动游戏用户的付费率在Android和iOS平台整体保持稳定状态,其中,休闲类移动游戏的付费率在Android和iOS平台相比上月均有所提升,环比增长率分别为1.1%和1.9%;

用户活跃度:2018年6月,Android和iOS平台移动游戏用户的活跃情况总体出现升温,Dau/Mau环比上月持平,活跃率出现不同程度的增长,其中,iOS平台卡牌类移动游戏的周活跃率环比增长6.8%,月活跃率环比增长1.0%;

用户留存率:2018年6月,移动游戏用户的留存情况在Android和iOS平台有所增长,其中,动作类移动游戏在Android平台的一日玩家比例环比下降0.2%,其次日留存率和7日留存率则分别增长5.5%和1.0%;

使用时长&次数:2018年6月,整体上移动游戏用户的日均游戏次数环比增长,平均每次游戏时长略有下滑,其中,Android平台角色扮演类移动游戏的日均游戏次数相比上月增长3.6%,平均每次游戏时长则微增0.7%。

移动观象台

更多移动互联网的行业数据和报告请登录TalkingData移动观象

咨询专栏丨券商O2O大数据营销实践

随着互联网金融时代的到来和证券业市场化进程的推进,券商业务线上化加速,行业竞争加剧,佣金费率持续下降,对券商的经纪业务带来了很大的冲击。然而随着流量边际成本的提高,券商线上获客成本剧增,竞争从获客转为存量经营,传统券商的一个优势反而显现出来,那就是线下渠道。券商拥有大量的营业部和营销人员,对比其他纯线上的金融机构有线下优势。

线下营销渠道的优势主要体现在信任度和专业度上,尤其是在客户生命周期的早期,比如开户、投资建议和资产管理等方面。一对一的营销可以让客户产生信任感,客户经理可以有充分的时间来了解客户的需求和困惑,并发挥他们的专业知识来说服客户。相比之下线上的营销手段,比如MOT和短信,则受制于时间、长度和方式,只能倾向于提供短平快的信息,难以为客户量身定制深度的投资意见和建议。

然而,目前券商却受制于一系列问题,并没有发挥出线下渠道的优势。首先是覆盖问题。目前我国的证券市场的投资者约为1.2亿人,但是行业的投资顾问仅有1.5万人,即使加上客户经理等,每个人需要服务的客户数量也要达到数千人之多,这超出了大部分投资顾问的能力。为了覆盖更多的客户,很多券商大力投资于智能投顾,试图通过固化已有的投资理念和投资算法来为更多的投资者服务。然而智能投顾却仍然存在着信任度不足、效果不好、缺乏个性化等问题,很难得到投资者的信赖。

其次是效率问题。线下的投资顾问普遍存在盲目营销的情况,营销效率较低。很多投资顾问只是根据自己的经验来选择营销对象,却因为人均客户数量大、对客户了解少等原因,选择营销对象有相当的随意性,最后造成营销效果不佳。投资顾问浪费大量的精力来与转化意愿不强或潜在价值不高的营销对象沟通,然而接通率/有效沟通率等却往往不高,最后的转化效果更是难以令人满意(以用户转开户场景为例,电销接通率30%左右,有效沟通率不足20%,转化率不足1%)。

那么如何才能解决这些问题呢?办法就是更加深入的了解客户,不仅是他们的基础属性、投资属性,更要预测他们的偏好和意愿。

这样才能更好地服务于他们,并提高他们的忠诚度,给企业带来更多的收入。大数据时代的到来恰恰为我们深入了解客户带来了契机。随着券商的服务日益走向线上化和移动化,我们有更多的途径来了解客户。通过在手机的安装包内植入代码(SDK),企业可以收集到客户大量的交互数据。通过这些交互数据,我们可以深入地了解客户的行为特点和偏好。TalkingData还可以在企业获得用户授权的基础上,通过SDK来收集用户的应用偏好。在这些数据的基础上,还可以通过机器学习模型来推断客户的其他属性,比如客户的年龄、性别等等。

通过这些数据,我们可以得到一些以往并不了解的有用信息。比如一个客户长期出现在金融圈(比如陆家嘴),那么,这个客户的金融属性可能较强,更有可能开户或接受更多的金融服务。再比如一个客户晚上居住的区域是房价很高的小区,那么这个客户的潜在价值就可能较高。但是,如果只是单纯的条件筛选,相比于大数据建模,可以提供的名单却往往不足,而且转化效果也不佳。

为了更加充分地利用各种交互数据和用户的交易和资产数据,我们使用了机器学习模型来预测客户的属性。那么在线下营销的场景里,什么样的属性最为重要呢? 我认为是转化意愿和转化价值。这两个属性相乘,构成了客户的潜在价值。我们可以通过客户的这两个属性来挑选潜在价值最高的客户,提供给客户经理。这样,客户经理可以在庞大的可营销人群中,挑选出潜在价值最高的人群进行营销,这样避免了对大量潜在价值不高、转化意愿不强的客户进行的无效营销,解决了覆盖度的问题。

同时,客户经理可以通过模型来选出有不同意愿的客户(开户意愿强的用户,回流意愿较强的流失客户,比如理财型客户、股票客户等等),并有针对性的设计营销话术。实践结果表明,这些方法可以非常明显的提高营销的转化率,极大地提高了客户经理营销的效率。以用户转开户短名单模型为例,模型选出的用户的开户转化率在10% 左右,远远高于随机挑选出的名单1%左右的转化率,也高于模型选出但是没有拨打的名单的转化率(2%左右)。

机器学习模型不仅可以在很大程度上解决目前线下营销出现的问题,而且它还具有普适性,可以应用到客户生命周期的多个营销场景。从下载App开始,到注册手机号,到开户,到入金,到购买股票/理财产品,到流失,到回流,每个场景下,我们都有相应的模型可以应用,为营销人员提供大量的TDID。我们还可以将这些模型的流程自动化并落地到系统中,并对接到公司的营销平台进行分发,节省了大量的人力物力。

那么我们是如何建立这些模型,又是如何优化它们,并最终落地到系统中的呢?

  • 首先是确定模型目标。

这是非常关键的一步,对模型最终的业务效果有非常重要的影响。模型目标取决于多个因素。首先是要确定业务目标。以用户转客户模型来说,就是要提高注册手机号的用户最终开户的比例。然而,业务目标并不完全等于模型目标。以用户转开户模型为例:很多用户进入开户流程后,却因为各种原因终止了开户(比如身份证头像问题、视频验证问题等等)。这些用户已经表达了非常强烈的开户意愿,然而却被客观因素阻止了开户。因为我们的模型主要是用于预测客户的意愿,所以我们把这些用户也作为模型的正样本。除此之外我们还要考虑很多其他业务上的问题。还是以用户转客户模型来说,存在很多在注册手机号当天就开户的用户。这些用户很多在App基本没有点击行为。根据我们对业务的了解,这些手机号中有很大一部分来自于线下渠道,是通过客户经理的推荐才开户的,甚至就是由客户经理操作开户的。所以,不能从这些手机号的行为数据来预测客户的开户倾向,所以从正样本中予以删除。

  • 确定模型目标还要确定好目标的口径

客户在一段时间内的行为在时间的维度上有影响的范围。比如客户在昨天点击了很多股票的行情,还看了理财产品的推荐页面。一年后,这个客户购买了理财产品。然而,很难说客户昨天的行为影响了一年之后的购买行为。在讨论之后,我们把模型的目标口径定为在一周内的转化。于是我们把业务目标翻译成为可以从数据库中提取的模型目标。

  • 其次是确定模型的数据来源和收集范围。

对于不同的业务场景,预测的数据来源有很大的差异。比如对于用户转开户的场景,因为用户没有开户,所以没有任何交易和资产类的数据。所以所需的数据很大程度上来源于用户在设备上的交互数据。对于流失预警模型,数据则主要来源于用户在近期的交易和资产数据,以及近期的交互数据。而不同时间范围的数据重要性也有所不同,越近期的数据权重越高。对于营销欺诈模型,则渠道和设备的数据显得更加重要,因为营销欺诈往往在渠道、设备属性上有集中效应(比如喜欢使用老旧和廉价设备,某些渠道营销欺诈近期的比例较高)。对于预测客户的价值属性(潜在高价值客户模型),则客户的外部数据显得更加重要。因为我们看到客户在系统里的资产,往往只是客户资产总量的一小部分,客户在其他金融机构存放的资产是我们需要挖掘的目标。这方面TalkingData的数据可以给予很大的帮助,我们可以通过这些数据来预测客户的价值属性。

  • 然后则是数据的加工和处理。

目前,很多券商的数据整合度仍然不够,重要的数据还分布在各个子系统内,需要进行整合和加工。交易和资产数据来自于柜台交易系统,一般较为完备,客户的交互数据则不然。这些数据来自于STK包上传的日志,需要通过解析脚本来批量结构化。我们要对这些数据进行清理、加工、整合,最后开发为我们可以使用的结构化数据。最后我们还要利用TalkingData 的ID Mapping 技术对这些数据进行打通,使他们能够通过TDID关联起来,最后成为我们可以利用的去识别化的数据来源。

  • 完成数据整合之后是对数据的采集和处理。

我们使用结构化的计算机语言(SQL/Hive SQL)对数据进行压缩,提取有用的汇总数据,再通过表与表之间的关联将这些数据汇总到一张或数张宽表内,作为模型的原始数据。

  • 采集完数据后,我们还需要对数据进行校验和分析。

我们需要检查各个字段的饱和度和异常值,分析数据的质量,并对出现的问题进行分析,找出原因。分析这些问题是否对模型有影响,以及如何处理脏数据。然后,我们还需要根据业务逻辑来确定对缺失数据填补的逻辑,以及对于异常数据的处理方法。特别需要注意的问题是,要防止因果混淆的问题,要将用于预测的数据和模型目标变量完全的隔离开来,以免造成因果不分的情况。

  • 之后则是将数据加工为最终模型使用的特征。

这其中很大一部分工作可以在数据采集和处理过程中完成,其他的工作则在数据校验之后完成。需要对数值型的变量进行计算,生成加工后的特征值,可以计算最大值、最小值、平均值、变化率等等等,对于类别数据,则采用各种编码方法进行处理。类别较少的数据可以采用独热编码,类别多的数据可以考虑其他的各种编码方式。还可以用这个分类特征去关联其他的数据,并加工为特征。

现在我们有了大量的特征和目标变量,然而我们并不能直接把这些数据输入模型,需要对这些特征进行筛选和处理。缺失率特别高的特征需要给予删除,特征出现共线性则需要选择去除部分的特征。我们还可以使用一些模型自带的特征筛选器对特征进行筛选(比如随机森林自带的特征筛选器)。我们还需要根据最后运行的模型确定是否需要对特征进行标准化。对于树类的模型(随机森林 C4.5等),标准化往往不是必须的,对于其他的很多模型,为了加快模型损失函数的收敛速度,我们需要对特征进行标准化。有各种标准化的手段可供选择。

在最终运行模型之前,我们还需要通过对业务需求的判断确定模型的评估标准。常见的模型评估标准有查全率(recall)、准确率(precision)、F1、AUC等。比如对于营销欺诈模型,模型衡量标准主要是 KS值,业务部门的人员还对模型的准确率提出了特别的需求。对于各种转化名单,则需要在准确率和查全率之间进行权衡,往往通过一些综合性指标(AUC、F1)等进行衡量。我们还可以通过ROC曲线来分析模型在不同阈值上的表现情况。然而,最重要的衡量标准是模型在实际转化中的表现。

还有一个需要考虑的问题是不均衡样本的问题。在很多转化场景下,正样本的数量往往远小于负样本的数量。比如在流失回流的模型中,回流的正样本只占样本总量的0.3%。在这种情形下,模型的效果往往会受到严重的影响。我们于是采用了一系列采样的方法来加以应对,比如欠采样和过采样(如图)。

确定好模型的评估标准之后,则需要选用合适的机器学习算法。机器学习算法的原理比较常用的机器学习模型是基于决策树的模型,回归类模型还有神经网络类模型。树类的模型主要有决策树、C4.5以及结合集成学习方法生成的RF模型和XGBoost 模型等。回归类模型主要是由线性回归、逻辑回归、岭回归等一系列模型。我们对各个模型在测试集上的表现进行了评估,结果显示,XGBoost和RF模型是表现最好的模型之一,这也是我们最后选择落地的模型。

XGBoost模型和RF模型的原理图:

之后则是模型训练和模型优化。我们对数据进行分割,将数据分割成测试集、预测集和验证集。我们在测试集采用交叉检验的手段来防止过拟合的情况。我们还采用了正则化的手段,在损失函数中加入正则项以进一步防止过拟合。我们还使用网格搜索、随机搜索等方法对模型的参数进行调优,最终得到相对较优的模型。

然而,只在测试集表现好的模型是不够的,我们还需要在实际的业务中判断模型的效果,最后根据业务人员的反馈来对模型进行进一步迭代优化。比如在用户转开户的TDID名单模型中,营销人员反映接通率较低,于是我们通过黑名单对数据进行初筛,这样有效的提高了客户的接通率。同时,我们还对TDID的匹配方式进行了优化,最后的名单的转化效果也有了大幅度的提升。

最后我们还需要将模型落地,将模型的所有过程自动化,并写成计划任务定期执行。

我们与营销平台开发人员和数据库开发人员进行合作,对接数据源,形成数据流,最终使我们的模型结果直接展现在营销平台上,以供分支营销人员使用。最后我们还规范了模型反馈结果数据,把拨测以及实际转化的情况的跟踪代码落地为报表,以便持续自动地跟踪模型的表现,并根据反馈做进一步的优化。

这样,通过利用大数据建模,我们可以有效应对目前线下营销所遇到的困难,充分发挥线下营销的潜能,从而进一步完善券商的数据运营体系。线上营销专注于推送和千人千面,倾向于提供简短、精要,及时的信息,而线下渠道则是专注于根据客户的意愿、偏好和实际/潜在价值提供更加专业的服务。而两者,都由数据驱动,为客户提供更加精准,更加个性化,也更加人性的服务。

重磅丨粤港澳大湾区人口流动分析洞察报告

‍报告概述‍

TalkingData与华人大数据协会联合推出《粤港澳大湾区人口流动分析洞察报告》,旨在从人口流动的角度分析大湾区城市之间的相互联系。根据本报告,我们发现,广州、深圳是大湾区的核心城市,与其他城市人口联系较为紧密,且广州、深圳对于大湾区其他城市具有较强的就业吸附力;香港、澳门与大湾区其他城市人口联系强度较快增长;东莞不再向广州输出净劳动力,且对深圳的劳动力净输出程度也有所减弱,其就业吸附力增强。

‍粤港澳大湾区是国家建设世界级城市群的重要空间载体‍

粤港澳大湾区是由香港、澳门2个特别行政区和广州、深圳、珠海、佛山等粤9市组成的城市群,其面积为5.6万平方公里,人口超过6900万,2017年GDP突破10万亿,是全国经济最活跃的地区,是国家建设世界级城市群、参与全球竞争的重要空间载体。

‍广州、深圳是交通枢纽城市港澳是对外开放渠道‍

从粤港澳大湾区的城市功能定位来看,广州、深圳和珠海是交通枢纽城市,多为科技产业创新中心,以知识密集型产业为主;东莞、佛山和中山以技术密集型产业为主,是制造业创新中心;香港是国际金融、贸易和航运中心,澳门是旅游休闲中心、葡语国家商贸合作平台,香港和澳门作为大湾区的对方开发渠道,从金融、商贸、旅游等多方面推动湾区城市的对外发展。

‍粤港澳大湾区城市的常住人口稳健增长‍

粤港澳大湾区城市群中,广州的常住人口数量最多,其次是深圳,2017年,两城市的常住人口规模均超过千万;从人口增长速度来看,珠海市的常住人口增长最快,其次是深圳和广州,此外,其他各市的常住人口均呈现正增长,粤港澳大湾区城市的人口吸附力较强。

珠海用户跨市出行活跃度最高

从粤港澳大湾区城市用户的跨市出行指数来看,珠海市最高,即珠海用户的跨市出行活跃度最高,此外,澳门、中山和佛山用户的跨市出行活跃度也较高。

‍广州、深圳是大湾区的核心城市与其他城市的人口联系最为紧密‍

从跨市流入度和跨市流出度的对比来看,广州、深圳的跨市流出度较高,即广州、深圳为大湾区其他城市贡献较多的净出行人口;从与湾区整体人口联系强度看,广州、深圳的人口联系强度最高,广州、深圳是大湾区的核心城市,与其他城市的人口联系最为紧密,此外,东莞、佛山与大湾区城市的人口联系强度也较高。

‍澳门、香港、肇庆、佛山与大湾区城市的人口联系强度增长较快‍

2016年以来,粤港澳大湾区各城市与其他城市的人口联系均呈现出增强趋势,其中,澳门、香港、肇庆、佛山与大湾区其他城市的人口联系强度增长较快。

粤港澳大湾区GDP突破10万亿且增速较快,经济发展状况良好

2017年,粤港澳大湾区GDP达到10.2万亿,同比7.0%,略高于全国GDP同比增速,大湾区经济发展状况良好;分城市来看,香港GDP排在大湾区首位,为2.3万亿,深圳、广州分别为2.24万亿和2.15万亿,且深圳和广州的同比增速分别为8.8%、7.0%,高于香港的GDP同比,经济表现非常亮眼,深圳、广州与香港的经济差距正在逐渐缩小。

广州、深圳对大湾区其他城市具有较强的就业吸附力

广州、深圳、佛山、东莞的工作用户流动占比较高,即上述4个城市具有较多跨市通勤用户;从工作用户流入和流出量的对比分析,可以发现,广州、深圳拥有较多的工作用户净输入,广州、深圳对大湾区其他城市具有较强的就业吸附力,而佛山提供了较多的工作用户净输出,佛山是大湾区重要的劳动力净输出城市。

‍广州和深圳的劳动力输出方向发生变换广州向深圳输出净劳动力‍

2018年4月,除深圳外,其他城市均对广州产生劳动力净输入,其中,佛山是广州的主要劳动力净输入源,且佛山对广州的劳动力净输入呈增长趋势;大湾区城市均对深圳产生劳动力净输入,其中,惠州是深圳的主要劳动力净输入源,且惠州对深圳的劳动力净输入呈增长趋势。 2018年4月,广州和深圳的劳动力输出方向发生变换,广州由从深圳吸引劳动力变为向深圳输出净劳动力,深圳对广州的就业吸附力增强。

‍深圳、珠海的就业吸附力快速增长东莞转变为劳动力净输入城市‍

广州、深圳和珠海均为劳动力净输入城市,与2016年相比,2018年,上述3个城市的就业吸附力均呈现增强趋势,且深圳和珠海的就业吸附力提升效应明显。2018年,东莞的工作用户净流出率由正转负,即东莞由劳动力净输出城市转变为劳动力净输入城市,东莞的就业吸附力增强。

新功能|TalkingData推出线下推广监测服务

随着线上流量成本升高和红利消退,商家们着眼于线下流量挖掘。在线下推广场景中,商家多以扫描二维码的方式作为入口,但此方式无法识别设备ID用于后续归因进而评估营销效果。

线下推广中,依旧被多数商家应用的传统匹配监测逻辑,在多名客户使用同WiFi网络环境或扫码与下载使用不同网络环境的情况下误差率较高,极易因统计误差造成业务人员与商家出现纠纷。

Markdown

为使商家能够精准统计不同业务人员、不同商圈门店的拉新引流效果,TalkingData打破传统归因逻辑,推出了使线下推广统计更精准、商家管理更便捷、效果点更精细,基于注册行为精准匹配方式为归因逻辑的线下推广监测服务。

TalkingData Ad Tracking线下推广监测服务支持以下功能

  • 推广管理者可批量生成推广二维码,实时监测不同实体门店、不同业务人员的推广效果;
  • 推广二维码由推广管理者统一制作后自上而下逐一发放,同时也支持业务人员/实体门店自下而上申请认领,推广管理者可结合场景自由选择;
  • 支持Html5、WeApp、Android和iOS四大平台线下推广监测;
  • Android和iOS多平台推广时,基于EasyLink提供一码多平台智能识别解决方案;

TalkingData Ad Tracking线下推广监测服务适用场景更多元

  • 多商圈实体店推广

此类线下推广,可由推广管理者统一生成推广码,下发至各实体店。待各门店信息完善后,TalkingData Ad Tracking线下推广监测功能将新增数据及其后续转化行为精准归因至各门店,便于推广管理者对各门店指标横向对比和推广优化;

  • 多业务人员地推拉新

在此类场景中,业务人员数量较多、人员分散,业务人员拉新的质和量也与其业绩相关。为了便于推广管理者对业务人员的业绩统计和快速人码合一,TalkingData Ad Tracking线下推广监测功能,支持业务人员通过填写推广管理者提供的短链去完善个人信息,进而生成与业务人员相对应的推广二维码。

业务人员完成推广拉新后,推广管理者可通过TalkingData Ad Tracking后台,查看各业务人员带来新增的质与量,帮助推广管理者对业务员业绩和新增数据进行结算与评估。

如果您存在以下困境,推荐您使用TalkingData Ad Tracking线下推广监测服务

  • 无法准确评判推广业绩;
  • 无法获得线下推广后新增转化的后续行为数据;
  • 多门店/业务员推广统计效果不佳,无精准数据优化推广和完善策略;
  • 同一活动Android和IOS多平台推广,无法二码合一;

以上困境只要有一个与您相关,那么深度了解和使用TalkingData AdTracking线下推广监测服务,就一定会对您有所帮助!

目前,TalkingData Ad Tracking线下推广监测服务已正式上线,开发者可以登录TalkingData Ad Tracking平台了解该服务的更多特点与具体功能。点击即刻申请试用,更多线下推广监测场景应用期待您的发现。

T11 2018数据智能峰会完整注册流程

T11 2018马上就要开始啦,相信很多小伙伴都想问,该如何注册参会呢?本文就教给大家! PC端注册流程

1、复制下方活动链接,并在浏览器中打开

http://www.huodongxing.com/event/1451528267400

2、 点击“我要参加”,选择对应的票种及数量,如有优惠码可进行输入

Markdown

3、点击“使用”进行优惠码验证,点击“我要参加”,验证联系方式(如无优惠码,直接点击“我要参加”,验证联系方式)

Markdown

4、填写报名表单,点击“提交”,进行付款

Markdown

移动端注册流程

1、点击文末“阅读原文”

2、如有优惠码可点击“我有优惠码”进行输入

Markdown

3、点击“确认”进行优惠码验证,点击“立即报名”(如无优惠码,直接点击“立即报名”)

Markdown

关于发票

购票发票(增值税普通发票)将于活动结束后10个工作日内邮寄,开票信息及邮寄信息请发邮件至:T112018@tendcloud.com 注:需附订单截图、预定人姓名及订单号

好啦,以上就是 T11 2018的注册流程,小伙伴们,我们9月11号见!偷偷地告诉你们,后面的文章或互动活动中,小编会发放优惠码和T11门票哟,请持续关注TalkingData公众号!

T11 2018报名参会,请点击

邀您见证数据智能的突破 | T11 2018整装待发

MarkdownMarkdownMarkdown

2018年 即将揭晓

Markdown

一年一度的大数据领域盛会 T11 2018 整装待发 同一个时间——2018年9月11日 同一个地点——北京·中国大饭店

T11 2018暨TalkingData数据智能峰会,邀请您与TalkingData和5000+各行业精英一起,探讨数据赋能社会转型升级的突破性思路,分享数据驱动各行业成效提升的突破性案例,打破传统商业模式、打造开放连接生态,用突破诠释数据的力量。

1个主题

突破

突破,创造新生;突破,成就非凡;突破,颠覆时代。大数据、云计算、AI、区块链……无限的0、1世界中,一次次技术突破,带来无限价值与机遇。

所谓不破不立,TalkingData将带您一起突破、跨越,用数据洞察引领智慧突破,用突破跨越发展困境,探秘数据智能驱动的全新世界。

2个方向

智能化

数据与智能的关系就像血液与大脑,而大脑才是创造智慧的主体。当下,数据只是起点,更关键的是从数据中形成智能,用智能来提升决策的质量与效率。

成效化

当下,是否要进行数字化转型已不是问题,如何用数据智能带来效率与效益的实际提升,打通从数据到成效的闭环,才是数据驱动转型的关键所在。

3大亮点

“成效合作伙伴”典型案例首次发布 TalkingData已经进行了近一年的“成效合作伙伴”实践,此次大会将首次邀请TalkingData在零售行业的“成效合作伙伴”,解读“成效合作”的典型案例。

神秘评选结果隆重揭晓 T11近年都会发布移动应用行业的重磅奖项。本次大会上,将为大家揭晓对于金融、零售、游戏等热门行业来说,最具投放价值的受众人群到底在哪里。

“TalkingData顾问天团”首次亮相

TalkingData强势发展战略与路径的背后,隐藏着一支国际化的“顾问天团”。此次大会即将首次邀请“顾问天团”的几位资深行业专家集体亮相,分享他们的前沿视野、独到见解与丰富经验。

4年积累

从2015年首次举办,T11已进入了第4年。支撑T11在4年中逐渐成长、成熟的,也是TalkingData成立7年中的不断发展与演进。

4年来,T11汇聚海内外知名专家、学者、数据科学家等相关从业者,总结了大数据行业的发展趋势,也积累了广大合作伙伴在各行业转型方面的实践经验。

5大峰会

  • 数据智能峰会
  • 新金融峰会
  • 新零售峰会
  • 智胜营销峰会 智慧城市峰会

∞可能

互联网、金融、零售、汽车、房地产、航旅、医疗、制造、政府……

数据与各行各业相结合,产生丰富多样的应用场景,带来不可估量的商业价值与社会价值。

数据改变企业决策,数据改善人类生活,无限潜力,无限可能。

了解T11 2018详情及报名参会,请点击

2018二季度移动智能终端市场报告

2018年二季度,移动智能终端市场走向如何?安卓设备用户又在哪两个品牌之间流动?TalkingData推出《2018二季度移动智能终端市场报告》,回顾二季度移动设备市场概况,分析安卓设备用户换机行为。

Markdown

中国移动智能终端规模已达15.1亿

2018年二季度,中国移动智能终端规模增速有所回升,终端规模已达15.1亿台。

Markdown

二季度小米品牌市场份额增长明显

2018年二季度,移动智能终端市场格局整体保持稳定,TOP10品牌排名未发生变动。苹果仍然以27.71%的份额占据榜首位置,OPPO以13.66%的份额成为国内安卓厂商领头羊。二季度小米品牌市场份额取得强势增长,相比一季度上升了2.55%。

Markdown

苹果与OPPO贡献最多高份额机型

单款机型表现上,苹果品牌保持领先优势,iPhone 6、 iPhone7 Plus 、iPhone 6S包揽了机型市场份额前三位。机型市场份额TOP 20中,苹果品牌占据10款,OPPO占据6款,两家贡献了最多的高市场份额机型。

Markdown

2017年底发售机型为主要增长点

2018年二季度,机型市场份额保持增长的主要还是2017年年底发售的机型。在机型市场份额增长TOP 20中,有15款发布于去年下半年,有8款发售于去年年底的11-12月。

2018年发布的新机型中,vivo X21以0.44%的份额增长居于第三位。

Markdown

一线市场苹果领先,安卓品牌深耕三线

在设备活跃城市层级分布中,苹果用户中一线、二线城市的占比要高于其他品牌。而安卓品牌用户分布主要以三线及以下城市为主,一线及二线城市占比最高的安卓品牌为华为及三星。

Markdown

华东、华南地区偏好iPhone

在华东、华南等地区,苹果在TOP品牌中更受欢迎。而OPPO在华中、西南地区更受欢迎,华为、vivo在华中地区更受喜爱,三星在东北地区最受欢迎。

Markdown

OPPO、vivo品牌用户流通最为常见

2018二季度安卓设备换机用户中,华为用户中有62.2%、小米用户中53.5%仍会选择本品牌,二者的品牌忠诚度最高。相似的定位促进了OPPO和vivo之间的用户流通,OPPO用户换机时有23.1%选择vivo,而vivo用户换机时有28.3%会选择OPPO,在跨品牌换机中占比最高。三星用户中的87.3%在换机时不会再选择三星,品牌忠诚度在安卓TOP5品牌中最低。

Markdown

典型机型换机分析:OPPO R15 换入OPPO R15的用户中,51.9%来自OPPO本品牌,48.1%来自其他品牌,其中来自vivo的用户占比为16.0%。换入OPPO R15的机型来源中,OPPO R9排在首位,机型来源TOP10中全部为OPPO机型,品牌内机型升级是主流。

Markdown

小米新用户更多的关心车子与房子

在二季度换机时选择其他品牌的用户中,选择小米的新用户对于汽车类、房产类、家居类应用的偏好更为突出,小米新用户的生活目标更多的集中在车子、房子。OPPO新用户更关心影音娱乐,而华为新用户更关心房产、健康与商旅出行,与其成熟商务形象相符。

Markdown

Markdown

崔晓波出席造就FUTURE,探讨人本数据与智慧城市

近日,TalkingData创始人兼CEO 崔晓波出席了由中国领先剧院式演讲平台——造就发起的“2018青春上海·造就FUTURE”演讲大会,并在会上分享了《智慧城市与人本数据》的主题演讲。

Markdown

TalkingData创始人兼CEO 崔晓波

本次大会邀请了50余位来自国内外的行业领袖共同参与,就 人工智能、生命科学、城市生活、数字娱乐、空间设计、极限探索、新商业和未来人类 八大主题进行了深入的探讨。

一、从实体物质化到数字虚拟化

Markdown

TalkingData创始人兼CEO 崔晓波

截至去年,中国的移动手机数量已接近13亿部,可穿戴设备趋于4千万台,数据的体量和维度呈指数级增长,正在为世界带来颠覆性的改变。由于移动互联网的空前增长,人类行为数据也正在高速发展,崔晓波预测:未来十年,物联网的数据体量增幅将超越移动互联网。因此,看世界的角度也要从实体物质化向数字虚拟化化进行转变。

抽象化、数字化已经广泛应用于城市研究和其他商业研究,例如Google将凤凰城进行了数字化模拟,逼真到需要研究员在屏幕贴上标签去区分现实场景和模拟场景。

崔晓波认为:利用增强学习的方法,对世界进行反馈,是未来所有行业所必经的阶段。

二、智慧城市

崔晓波通过一个案例来解读人本数据如何助力智慧城市的发展,与传统的平面城市研究不同的是,TalkingData将城市人群进行了可视化模拟,通过实时数据赋予人群“动感”,形如脉搏。将人群分为红蓝两色以区分高收入和低收入人群后发现:不同阶层、不同收入的两种人群产生了“时空折叠”的现象——即虽同处一座城市,但很少产生互动交流。

崔晓波指出:这种现象不利于城市的健康发展,会给城市带来各种安全、贫富分化以及相应设施配给等一系列问题。

为了有效解决此类问题,TalkingData采集了包括线下行为、位置、轨迹,线上所有访问习惯等千万份数据进行了深度研究,通过机器学习的方法加入新的维度与思维对人群重新分类定义:比如深宅幸福奶爸、应共享经济而生的快递小哥、代驾等“城市自由工”,经常看演出、关注化妆购物等“买买买的年轻文艺女性”等等,去重新定义在飞速变化的社会中的人群属性,以对在城市生活的所有人群有一个清晰、准确的认知。

通过“城市透镜”的感知计算构建出一个不仅包含静态数据也包含动态数据的立体城市模型,一直是都TalkingData所探索的方向,崔晓波表示:大数据不应该是冷冰冰的,要以人为本,反映人的生活习惯,甚至是个性。

但仅仅反映出人的行为仍远远不够,也要追本溯源地去考虑他们背后的心智,因此TalkingData联合MIT媒体实验室成立了人本数据实验室,通过多年的经验积累去研究人类行为背后的心智,人与环境之间的关联等。

在谈到未来城市规划时,崔晓波提到,一些先进的城市规划与建设已经回到了以人为本的本质中,在地标建筑、交通等建设上市民会高度参与。

三、数据改变企业决策 数据改善人类生活

​数据要取之于民用之于民,而不仅仅组用于助力监管部门的管理。崔晓波回忆,早在TalkingData创立之初,几位创始人在公园里一直思考的问题是:数据究竟能解决什么问题?数据的终极是什么?最后得出:数据会改变企业决策;数据改善人类生活的两大结论。

在人工智能和脑科学相结合成为大数据分析领域的热点的今天,崔晓波表示:从数据的角度来看,判断智能只有一个衡量标准:能否代替人做决策。人工智能结合数据产生的决策价值质量若比人的效率高质量更好,那么它就是人工智能。

在演讲的最后崔晓波提到,大数据与城市相结合的力量是无穷的,但大数据和人工智能无法具备人所有的“正直”属性,因此它可善可恶,现今一些数字资产的拥有着和使用者已经偏离的政治的轨道,导致乱象产生,目前TalkingData最重要的是要做一家正直的大数据公司。

TalkingData一直以来都在着眼于在合法合规的基础上通过人本数据助力企业发展以及智慧城市的建设,崔晓波强调,数字化时代已经来临,TalkingData希望与更多的企业和政府机构合作,探索商业变革和智慧城市的新路径。

重磅 | iView 发布 3.0 版本,以及开发者社区等 5 款新品

Markdown

7 月 28 日,我们成功地举办了 iView 3.0 暨神秘新品发布会,这可能是前端开源圈第一次举行线下+线上的发布会。现场座无虚席,线上直播也有超过 2 万人观看。

Markdown

iView 3.0到底有哪些重要更新?5款神秘新品又是什么?接下来就为你揭秘……

View 3.0:更轻量的设计,更强大的组件和功能

我们设计了全新的 iView Logo,维持了原先 i 和 v 的造型,并让颜色更立体:

Markdown

3.x 的版本代号依然沿用 iOS 优秀独立游戏的名称,3.0 的版本代号为两周前刚发布的 RPG 游戏 Battleheart。

全民彩蛋计划

Markdown

为庆祝 iView 两周岁生日,以及 3.0 版本的发布,我们在 iView 文档 (https://www.iviewui.com)中放置了三枚彩蛋,它们埋藏在不同的页面里,可能是一段隐藏的代码,或是一段需要破解的密码等等,总之,聪明的你一定会找到并破译它们。当然,找到三枚彩蛋,你并不能继承 iView 作者的遗产!彩蛋可以兑换大量的 IO 币,详见下文开发者社区(https://dev.iviewui.com)。

设计

许多用户选择 iView,很大的原因是认可 iView 的设计,所以在 iView 3.0 里,我们对 UI 进行了进一步的优化。

iView 的 icon 采用开源项目 ionicons 提供的图标,这次也是将 ionicons 图标库从 2.0 升级至 3.0。 3.0 的图标库在命名上更加的规范,只分为 ios ,md, logo 三种,图标也比以前丰富和好看。 3.0 还新增了属性 custom,可以自定义图标。

Markdown

整体的设计风格趋向于简洁、轻量,去掉了冗余的设计,部分颜色做了调整,看起来更加醒目,比如:

Markdown

Markdown

新组件

iView 的组件是全球同类产品里数量最多,功能最丰富的,3.0 更是增加了 5 个全新的组件。

相对时间组件 Timehttps://www.iviewui.com/components/time

锚点组件 Anchorhttps://www.iviewui.com/components/anchor

面板分割组件 Splithttps://www.iviewui.com/components/split

分割线组件 Dividerhttps://www.iviewui.com/components/divider

单元格组件 Cellhttps://www.iviewui.com/components/cell

相对时间组件 Time 用于表示几分钟前、几小时前等相对于此时此刻的时间描述。相比一个固定的日期时间,它更能体现出最近的状态。

Markdown

锚点组件 Anchor 可以快速跳转到页面指定的位置,经常用于导航文章或文档中的目录结构,随着页面的滚动,它可以自动定位当前浏览区域所对应的标题,点击对应的标题,页面也会跳转到对应的位置。

Markdown

面板分割组件 Split 可将一片区域,分割为可以拖拽调整宽度或高度的两部分区域,并支持嵌套使用。

Markdown

分割线组件 Divider,常用于对不同章节的文本段落进行分割,或者对行内文字/链接进行分割,例如表格的操作列。

Markdown

单元格组件 Cell 在手机上比较常见,在 PC 上则常用于固定的侧边菜单项。Cell 可以是一个简单的菜单项,也可以跳转到其它页面,或者跟 徽标 Badge 或 开关 Switch 等组件一起使用。

Markdown

新特性

iView 3.0 有超过 40 项新特性及功能的优化。 首先是全局配置——

https://www.iviewui.com/docs/guide/global),使用 iView 3 时,可以进行全局配置组件的一些属性。目前只支持配置 transfer 和 size 两个属性。组件会优先使用 prop 设置的属性,如果未设置,再使用全局配置。

transfer:所有带浮层的组件,是否将浮层放置在 body 内,默认为不设置,详见各组件默认的 transfer 值。可选值为 true 或 false。

size:所有带有 size 属性的组件的尺寸,默认为不设置,详见各组件默认的 size 值。可选值为 default、small 或 large。

用法如下:

Vue.use(iView, {

transfer: true,
size: 'large'

});

Button 是 iView 最基础,也是最常用的组件。看似再简单不过的一个组件,其实里面有很多学问。 iView 3 废弃了 type=”ghost”,而是新增了布尔选项 ghost,定义按钮为幽灵按钮,幽灵按钮的背景是透明的,常用于有色背景上面。

Markdown

还新增了 3 个用于跳转的 props:to、replace、target:

Markdown

添加 to 属性后,按钮会以 标签的形式渲染,点击可直接跳转,也支持传入一个 vue-router 对象,iView 会做智能判断。如果使用了 vue-router,会以前端路由的形式跳转,否则会用传统的方式跳转。 replace 属性开启后,跳转不会保存历史记录。 target 的行为和 a 标签类似,比如设置在新窗口打开。 支持 跳转 的组件,除了 按钮组件 Button,还有面包屑组件 Breadcrumb、菜单组件 Menu、以及单元格组件 Cell,这些组件都具有 to、replace 和 target 三个属性,体验也完全一致。后续还会支持到更多组件,比如 Dropdown。

Markdown

router 的编程式导航跳转方便的太多,并且会渲染为带有链接属性的 a 标签,在 SEO 上也更友好。

所有支持跳转的组件,都支持了键盘按键(Mac 为 command,Windows 为 ctrl)加鼠标左键在新窗口打开的特性(无论是否设置 target=”_blank”,这种组合行为都会在新窗口打开,与浏览器原生体验完全一致)。

对话框组件 Modal 新增了三个属性:

fullscreen 全屏

draggable 拖拽

mask 是否隐藏遮罩层

开启全屏属性 fullscreen 后,会铺满整个屏幕,并且只有内容区域可滚动。 开启拖拽属性 draggable 后,会默认隐藏遮罩层,此时拖动 Modal 的标题栏就可以移动了,可以支持同时开启多个 Modal 进行拖拽。

表格组件 Table 新增了两个属性

indexMethod

tooltip

当设置列有 type=”index” 时,可以使用 indexMethod 进行自定义序号了。 给某一列设置属性 tooltip=”true” 时,当该列内容过长,一行无法显示时,鼠标经过会以 Tooltip 的形式显示完整内容。

Markdown

其余的更新内容可以到 3.0 更新日志查看。

开发者社区 iView Developer

这是发布会最劲爆的一款产品了。过去的两个多月里,我们一直在投入社区的开发中,目的就是彻底解决开发者的问题,更好地服务开发者。 社区地址:https://dev.iviewui.com/

一对一提问

遇到编程问题,怎样才能有效解决呢?

QQ / 微信群

SegmentFault / Stackoverflow 等技术社区

问同事

每个人都期望加入大群,但都在小群活跃。QQ / 微信群是程序员很活跃的地方,iView 也组建过官方的 QQ 群,累计有 5000 人左右,每天都沉淀了大量的讨论,虽然我不会一一过目,但偶尔也会快速浏览一下。其中一部分问题是文档中已有的,一部分是比较基础的用法,还有一些相对综合的问题。提问的人很多,解答的人缺少,因为群里的人,绝大多数都是和“你”一类的用户,他们加群也是想解决问题来的,但事实上,并没有得到很好和及时的解决。

Stackoverflow 就不说了,这是一个门槛较高的程序员社区,不过对于高级程序员来说,是寻找答案最好的地方。我们来说说国内的技术社区。以 SegmentFault 为例,我们以往也一直鼓励除了 bug 反馈,都到 SF 提问,因为 GitHub 只适合处理 bug 本身的问题,对于如何使用不适合在上面探讨。

至于问同事和朋友嘛,首先你得有一个懂你的领域问题的同事或朋友,而且,对方得有时间和耐心。

为什么得不到有效解决?

其实理由很简单:

“你”问的圈子的人,也都跟“你”一样,是主动提问型的。

专业问题(比如 iView / Vue.js),不是所有人都知道。

能解决你问题的人,一般都是大牛,而大牛都很忙,根本没空理你。

说的很露骨,但却一针见血。

怎样才能解决问题

如果你想问 iView 的问题,那这个世界上谁对 iView 最了解?当然是 iView 作者本人了,那自然也对 Vue.js 的问题了如指掌。如果作者解决不了的,但基本也没什么人能解决,所以,要想彻底解决问题,就是直接向 iView 作者提问。

所以,一对一提问,是 iView Developer 最核心的功能,也是最能解决你痛点的。

Markdown

高级示例

针对 Vue.js 及 iView,精心编写了大量业务中的高级示例,对 iView 官方文档作补充。比如 Table 的服务端分页及服务端排序、过滤;Upload 的手动上传及七牛云的集成。所有示例都有详细说明、源码及演示,并可以收藏。高级示例会不断增加。

高级示例也是 iView Developer 另一重要的板块,里面会陆续更新丰富而针对性的实例,以 iView 和 Vue.js 为主。高级示例具体到某个详细的问题,比如 Table 组件和 Page 组件联合使用并做服务端的分页、排序、过滤。大量的最佳实践和详尽的代码讲解、浏览体验,对于 iView 使用者来说是很好的补充。

Markdown

每周都会更新一些示例,并提示您,并且可以对示例进行收藏。

除此之外,还有独家写作、商城等功能,期待你的探索!

iView Run:随时随地运行 iView 示例

iView Run 是一个集成了 iView 环境的在线运行 iView 示例的工具,左边写代码,右边预览,可以直接编写一个 .vue 文件,它包含了 template、script、style 三部分。 编写好的示例保存后,会生成一个链接,并可以预览,链接可用于提交 bug,或分享示例给他人参考。

地址:https://run.iviewui.com/

Markdown

iView Run(beta)目前仅支持 iView 环境,暂不支持 Less 和部分 ES6 语法,这取决于你的浏览器。未来将逐步支持,并提供示例共享平台,你可以分享或浏览别人分享的优秀示例。 并且 iView 的文档未来也会集成 iView Run,文档中所有的示例未来都可以直接在 iView Run 中运行。

iView Editor:简约而不简单的 markdown 编辑器

因为在 iView Developer 中,我们开发了一个使用起来还不错的 markdown 编辑器,所以把它单独开源出来。 iView Editor 参考 Github 的设计风格,可以在 markdown 和预览之间进行切换,当然,你喜欢实时预览的话,也是支持的。

地址:http://editor.iviewui.com/

GitHub:https://github.com/iview/iview-editor

Markdown

iView Weapp 2.0

我们在一个多月前发布了微信小程序 UI 组件库 iView Weapp,这次发布会我们带来了它的 2.0 版本。 2.0 文档:https://weapp.iviewui.com/ GitHub:https://github.com/TalkingData/iview-weapp

iView Weapp 2.0 新增了 7 个全新的组件: 索引选择器 Index

吸顶容器Sticky

滑动菜单 Swipeout

倒计时 CountDown

分隔符 Divider

折叠面板 Collapse

页底提示 LoadMore

扫描小程序码,立即体验 iView Weapp 2.0:

Markdown

iView Admin 2.0

iView Admin 2.0 也进行了一波大的升级:

基于 Vue Cli 3.0 重构所有代码 重写重要组件 全新权限方案 多级菜单路由 Mock 请求模拟 全局配置 清晰数据流

体验iView Admin 2.0: https://iview.github.io/iview-admin

GitHub:https://github.com/iview/iview-admin

7月28日也是 iView 的两周岁生日,发布会结束后,我们举行了生日会。特别定制的蛋糕太萌了,大家纷纷拍照留念。

Markdown

以上就是本次 iView 3.0 发布会的核心内容,完整的发布会视频之后会在 iView Developer 发布。

简明数据科学 第八部分:回归模型中的定性变量

Markdown

TalkingData 张永超

在之前的文章中,我们讨论了回归模型。费尔南多选择了最好的模型,他建立了一个多元回归模型,该模型的具体形态如下:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

该模型构建了一个根据发动机的大小、车辆的马力和宽度的函数,来预测或评估车辆的价格。而且该模型中所有的预测因子都是数值型的。

但是,如果有定性变量呢?定性变量是如何用来增强模型?定性变量又改如何解释呢?

这篇文章我们将针对定性变量进行讨论。费尔南多得到了两个类似的定性变量:

  • fuelType:燃油的种类。该值可以是汽油或者柴油;
  • driveWheels:驱动的种类。有三个可能的值,4轮驱动、前轮驱动和后轮驱动,分别表示为4WD、RWD、FWD。

Markdown

费尔南多希望找出这些定性变量对汽车价格的影响。

概述

定性变量是哪些非数值型的变量。适合用于将数据分类,也称为分类变量或者因素。此类变量带有一定的层级,而层级是特定定性变量的特殊值。

燃油种类由两个独特的值,汽油和柴油。这意味着燃料类型有两个因素。

驱动有三个独特的值。四驱、后驱和前驱。这意味着驱动有三个因素。

当回归模型使用定性变量的时候,需要将定性变量转变为虚拟变量,也就是简单的0和1。例如,样本数据中有5辆车的数据,每辆车都有柴油或汽油的燃油类型。

Markdown

燃料类型是一个定性变量。它有两个级别(柴油或天然气)。统计软件创建一个虚拟变量,创建一个名为fuelTypegas的虚拟变量,该变量需要0或1个值。如果燃料类型是汽油,那么虚拟变量是1,否则它是0。

写成数学形式如下:

  • xi = 1 如果燃油类型时汽油
  • xi = 0 如果燃油类型时柴油

接下来看看定性变量在回归模型中的表现,当只有价格和燃油类型的时候,简单回归模型可以提供如下的参数系数:

Markdown

只有一个系数斜率和一个截距,回归模型为定性变量的因子值(在此种情况下为汽油)创建虚拟变量。

如果虚拟变量为0,即汽车的燃油类型是柴油,则 价格= 18348 + 0×(-6925)= $18348;

如果虚拟变量为1,即汽车的燃油类型是汽油,则 价格 = 18348 + 1 x (-6925) = $11423。

处理双因素水平的定性变量的方式是明确的,即构建虚拟变量,其值非0即1。但是当具有多余两个以上级别的变量该如何进行处理呢?例如下例。

驱动方式是一个具有三个因素的定性变量。在这种情况下,回归模型会创建两个虚拟变量,假设样本数据有4辆车:

Markdown

两个虚拟变量会被创建:

driveWheelsfwd:如果驱动方式是前驱,则为1,否则为0

driveWheelsrwd:如果驱动方式是后驱,则为1,否则为0

数学形式如下:

  • 如果驱动方式为前驱,xi1 = 1 ,否则 xi1 = 0
  • 如果驱动方式是后驱,xi2 = 1 ,否则 xi2 = 0

需要注意的是,4驱并不存在于虚拟变量中。

那么他们最终是如何在回归模型中表现出来呢?回归模型对待此类虚拟变量的方式如下:

Markdown

首先,回归模型为价格估算创建了一个基准线,基线中并不包含定性变量对应虚拟变量的均值,此时的结果为截距值,基线方程为4驱方式的平均价格;

对于前驱:车辆的平均价格被估算为 基线 + 前驱系数,即 价格 = 7603 + 1 x 1405 + 0 x 10704 = $9008,意味着,前驱车辆的价格比四驱高出1405美元;

对于后驱:车辆的平均价格被估算为 基线 + 后驱系数,即 价格 = 7603 + 0 x 1405 + 1 x 10704 = $18307,意味着,后驱车辆的价格比四驱高出10704美元。

所有具有两个以上因子值的定性变量和具有双因子值的定性变量处理方式类似。

模型构建

有了对定性变量的处理方式的了解,费尔南多开始将这些定性变量应用在他的模型中,他的原始模型为:

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

他添加了两个定性变量到模型中,燃油类型和驱动方式,于是模型被改写为:

价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.燃油类型 +β5.前驱 + β6.后驱。

于是费尔南多尝试进行了一些训练工作,得到了如下的系数:

Markdown

模型现在为:

价格 = -76404.83 + 57.20 发动机大小 + 23.72 马力 + 1214.42 宽度 – 1381.47 燃油类型 -344.62 前驱 + 2189.16 后驱

这里有定量和定性变量的混合,这些变量是彼此独立的。

从结果中可以看到,调整的R平方为0.8183,意味着模型可以解释训练数据中81.83%的数据异动。但是并不是说所有的定性变量都有意义,在某些情况下定型变量对模型并没有任何意义。

结语 这个模型并不比原始模型好,但是也能够完整的完成工作,我们理解定性变量在回归模型中解释方式,显然,马力、发动机大小和宽度为因子的原始模型更好,但是这些因子是独立处理的。费尔南多思考:

马力、发动机大小和宽度之间有什么联系?

他们之间的联系是否可以模型化?

在下篇文章中将解决这些问题,将解释回归模型交互的作用和局限问题。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

简明数据科学 第六部分:模型选择方法

简明数据科学 第七部分:对数回归模型

Markdown