:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

大话西游 | 高手在民间,这个充满魔力的算法竞赛平台曾让NASA无地自容

  • 七 25 / 2016
  • 0
News

大话西游 | 高手在民间,这个充满魔力的算法竞赛平台曾让NASA无地自容

2006年,全球最大的在线电影租赁公司Netflix为了得到能够将其电影推荐引擎准确性提高10%的算法,召集了全球的计算机科学家和数学家,悬赏百万美金,举办了一场耗时长达3年的比赛。最终在2009年Netflix 如愿以偿的从一个AT&T工程师团队手中收获了成熟的算法,并凭借其强大的功能,大幅提升了旗下用户的消费体验,并成为日后击败Blockbuster等传统影视租赁公司的关键之一。

20150429025356947

就在两年后, Heritage Provider Network(美国的一家健康咨询公司)为了找到能够预测出哪些人在未来的一年需要更加关注健康的算法,一次性拿出了300万美元的巨额奖金。而这一次,他们不用再花费三年光阴、动用大量的市场费用去笼络那些分散在世界各地的数据科学家们。今天,他们仅需在线上填写一个只有5个问题的表格,每月就会收到数以百计的数据科学家们提供的解决方案。而改变这一切的人,就是当年关注Netflix算法比赛的一个金融记者 Anthony Goldbloom。他在报道Netflix赛事的过程中发现了商机,并复制了该比赛的模型,于2011年成立了全球最大的机器学习竞赛平台——Kaggle。

自1980年自动反欺诈监测的算法首次被应用于信用卡公司以来,机器学习及相关统计工具被用来解决企业的“大数据”问题已有近40年的历史。而Netflix的成功,让很多掌握着大量数据的企业看到了手中数据的价值,并开始着手组建自己的数据科学团队或者向一些大数据服务商寻求帮助。很多做大数据企业服务的公司正是在这期间迅速发展起来,比如耳熟能详的Palantir, Tableau,Cloudera等。

而与他们不同的是,同样面对企业需求,Kaggle选择了一条与众不同的商业模式。Kaggle不会直接为企业提供任何的技术或机器学习解决方案,而是选择搭建了一个每月有高达30万数据科学家活跃的机器学习竞赛平台。企业只需要把有待解决的问题发布在该平台并提供一定的授权费和适当的赛事奖金,就会有数以千计来自全球各地的数据科学人才前来参赛,并可以在短时间内给出相应的解决方案。这种通过将一个问题开放给全球人才来解决的模式俗称——“众包”, 最典型的例子可以参考维基百科的由来。

至今为止,Kaggle为万事达、辉瑞制药公司、通用电气、好事达保险公司和Facebook、Twitter等等数十家全球知名企业解决了横跨各领域的预测模型需求,包括通过社交媒体信息流判断用户是否为精神病患者,为飞行员提供更有效的航线规划,根据匿名医疗记录发现二型糖尿病患者等等。不仅如此,Kaggle的30万数据科学家甚至在几周内就帮助NASA把Dark matter定位的精准度提高了3倍,要知道,NASA可是拥有着那些全球最好的数据科学家以及最复杂庞大的数据体系。

俗话说,众人拾柴火焰高。Kaggle社区有几十万资深的数据科学家,从这个角度看,能够解决NASA的问题似乎并不意外。然而Kaggle是如何聚集并管理这些来自世界各地的精英呢?尽管比赛的奖金很丰厚,但是单个比赛的参赛队伍将有可能达到上千只,而只有最优秀的前几名可以拿到奖金。那么只可能是一个原因:他们并不是单纯为了奖金来到这里。

“我们把数据科学比赛看做是一项竞技运动” 一位在比赛中投入了上千小时却只挣到了250美金的数据科学爱好者介绍到。Kaggle社区的科学家们分别来自计算机、统计学、数学、物理学等不同领域,覆盖全球100多个国家,1000多所大学。对他们来说,这里更像是一个公平开放的对战平台,每场比赛都会有一个公开且实时的算法比分排名,参赛者必须不断优化自己的算法来保证自己的排名不会被其他人所取代,而每次的赛后结果,还会积累到个人档案中,形成一个总的排名。另外,在该公司的论坛上,参赛者还可以针对每一场比赛进行探讨和相互学习,进一步提高自己的技能。

对很多人来说,Kaggle上的排名不仅仅一种勋章,而是一种比传统标准更加重要、更具价值的能力证明。在面试时,你不用再搬出常青藤的毕业证书或是Facebook的工作经历,对于一切可以量化的数字领域,Kaggle上的排名足以说明一切。

Leave a comment

随时欢迎您 联系我们