:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Posts Tagged / 商业智能

  • Dec 29 / 2017
  • 0
Ideas, Tech

锐眼洞察 | 学了这么久机器学习,你真的了解它的概念吗?

作者:TalkingData 杨慧

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

导语:

本文是对 TalkingData腾云大学执行校长杨慧分享的两个专题的总结,分别介绍了国内外知名学者、媒体对 Machine Learning 和 Business Intelligence 的定义,也谈了杨慧个人的理解。

 

什么是机器学习?

导读:

学习一直是生物具有的特性,在人类身上的表现尤为明显。机器学习,顾名思义,就是让机器(计算机、程序)也具备学习的能力。更精简点来说,就是通过经验提高性能的某类程序。

卡内基梅隆大学(Carnegie Mellon University)的 Tom Michael Mitchell 教授在 1997 年出版的书籍 Machine Learning 中对机器学习进行过很专业的定义,这个定义在学术界内被多次引用。

在这本书中对机器学习的定义为:

假设一个程序能够在任务 T 上,随着经验 E 的添加,效果 P 也能够随之添加,则称这个程序能够从经验中学习。

在大部分情况下,在训练数据达到一定数量之前,越多的训练数据能够使逻辑回归算法的推断越精准。但是如果数据的特征值,也就是描述一条数据的维度越少,那么即使有再多的训练数据,逻辑回归算法也无法非常好地利用。

因此,机器学习的效果与数据的维度密不可分。怎样数字化地表达现实世界中的实体,一直是计算机科学中一个很重要问题,维度越多,描述得越清楚,机器学到的经验越多。

因此,工欲善其事必先利其器,机器学习这种手段不是大数据的价值所在,更广泛的数据维度,占有更多有多维度价值的数据集,才是大数据的价值所在。

 

 

机器学习(ML)是探索学习算法的构建和研究(DAMA DMBOK)。

此外,“机器学习建立具有适应性参数的程序,参数可根据程序收到的数据自动调整。通过适应已经看到的数据,程序能够改善他们的行为。另外程序还对数据进行了概括,这意味着这些程序可以在以前不可见的数据集上执行功能。”(Alejandro Correa Bahnsen)

据 Keith D. Foote 介绍:最基本的机器学习就是使用算法来解析数据,从中学习,然后对世界上的事物做出决定或预测的实践。因此,机器学习使用大量的数据和算法对机器进行“训练”,赋予其学习如何执行任务的能力,而不是用一些特定的指令手工编写软件程序来完成特定的任务。

机器学习同以下概念相结合(DMBOK):

  • 监督学习:基于广义规则;例如,将垃圾邮件从非垃圾邮件中分离出来。

  • 无监督学习:基于识别隐藏模式(即数据挖掘)。

  • 强化学习:基于实现目标(例如,在象棋中击败对手)。

  • 机器学习还包括编程机器,来快速从查询中学习,并适应不断变化的数据集。

机器学习的其他定义还包括:

先进的算法“由许多技术组成(如深度学习、神经网络和自然语言处理,以现有信息的经验为指导)”(Gartner IT 术语表)

“基于数据经验的结果而更新知识库的系统。”(Adrian Bowles)

“数据分析的一种方法,可自动建立分析模型。”(SAS)

内置智能的算法,使用可用的数据来回答问题。(Paramita Ghosh)

“通过解读我们周围的世界的数据,分类以及从成功和失败中学习这些方法,教计算机和我们同样的学习方式。”(Forbes)

人工智能的一个子领域,或是机器使用数据和自学的 AI 领域。(TechRepublic)

用于数字化转换的人工智能。(哈佛商业评论)

企业使用机器学习来:

  • “大幅缩短回答时间,指导组织洞见”(DMBOK)

  • 处理计算机系统的威胁或安全问题

  • 预测或执行预测分析(McKinsey)

  • 赶上数据量的增长(ComputerWorld)

  • 开发 AI 算法中复杂问题自动化(MIT Technology Review)

  • 在提高员工敬业度和提高客户满意度的同时扩大一线增长(Harvard Business Review)

  • 提高编程的效率和速度(James Kobielus)

  • 在多个行业中提升和开发众多不同的用例 (Paramita Ghosh)

什么是商业智能?

导读:

BI 有两层含义:一层是工具类含义-做分析的技术集;一层是职能类含义,做分析的过程。这两者缺一不可。

如果只看到了 BI 的工具类含义,就会误入“工具至上”之路。BI 说到底还是为了业务服务,只有解决了业务痛点问题的 BI 才是 Smart BI。从业务角度来说,BI 解决的问题包括了:决策的正确性(effectiveness)和决策的即时性(efficiency)。

 

 

商业智能(BI)包含了分析、报告不同业务操作的技术和工具。商业智能使用存储在不同数据仓库、数据集市、数据湖泊和其他存储平台中的原始数据,将其转换为可操作的知识/信息资产。内容包括仪表盘,电子表格,数据可视化,报告等等。

“在其更为详尽的用法中,BI 是在指定组织内收集、存储、回收和分析数据资产所必需的所有系统、平台、软件、工艺和技术。因此,BI 是用于战略规划、决策制定、市场调研、客户支持、库存分析、统计报告以及企业在整体运营洞察机制等其他方面的程序和流程。”(Kelle O’Neal&Charles Roe)

如 DAMA DMBOK 所述:

“商业智能有两个含义:首先是指一种旨在了解组织活动和机会的数据分析。这类分析结果用来提高组织的成功;其次,商业智能是支持这种数据分析的一系列技术。商业智能工具可以实现查询、数据挖掘、统计分析、报告、场景建模、数据可视化和仪表盘。 ”

商业智能的其他定义包括:

“包含应用程序,基础架构,工具和最佳实践的一个统称,可以访问和分析信息以改进和优化。”(Gartner IT 词汇表)

 

“BI 的重点在于:在正确的时间基于正确的信息快速高效地做出决策。”(Keith Foote)

软件和服务的杠杆作用,将数据转化为可行的运筹情报、以及组织的战略战术业务决策。(Mary Pratt,CIO)

一个“总括术语,涵盖了围绕商业数据收集,处理和分析的一系列活动。”(美国东北大学 Mikal Khoso)

“一套利用信息管理流程输出进行分析、报告、绩效管理和信息交付的方法,流程,架构和技术。”(Forrester)

“这个术语是指将原始数据转化为企业可以用来做出更好的组织决策的信息的想法、实践和技术。”(BusinessIntelligence)

组织/公司使用商业智能来:

  • 支持操作功能

  • 执行监管要求

  • 获得关于公司、客户和产品的洞见

  • 获得竞争优势

  • 实践描述性,预测性,规定性和实时分析

  • 做出决策或监控进度(Kelle O’Neal)

 

  • Dec 28 / 2017
  • 0
Data

锐眼洞察 | 2017年大数据分析市场调研报告(翻译)

作者:Dresner Advisory Services

原文:2017 Big Data Analytics Market Study

译者:TalkingData CTO 肖文峰

本译文禁止商用,转载请注明作者与来源!

译者导读:

这份报告是由Zoomdata赞助Dresner Advisory Services制作的大数据分析市场洞察。

从报告中可以大致看到,对于企业来说,大部分依然处于有数据、但是没有有效手段进行展示的阶段。“大数据”对于他们来说还是更加遥远的未来的事情。

亚太用户距离北美来说有一定差距,未来会使用的群体会更大一些,尚无计划使用大数据的更少一些,说明企业基础比较好,更容易接受新生事物,只不过需要有一定的过程。亚太地区的企业引入大数据会更加急迫一些。

IoT并非想象中那么受到追捧。数仓优化是对于企业已经投入的资产的优化。客户和社交分析依然具有持续的高需求。

这里只是翻译部分内容,详细报告请点击原文下载PDF版。


摘要:

  • 大数据采用率在2017年达到53%,高于2015年的17%。
  • 电信和金融服务是早期采用者(第19-24页)。
  • 行业对大数据的态度略有下降(第68页)。
  • 在亚太受访者的带领下,40%的非用户期望在未来两年内采用大数据(第25-30页)。
  • 在商业智能战略的技术和举措中,大数据分析在我们研究的33个主题领域中排名第20位(第18页)。
  • 数据仓库优化仍然是最大的数据使用案例。客户/社会分析和预测性维护是最有可能的用例。物联网大数据势头放缓(第31-36页)。
  • Spark是领先的大数据基础设施选择,其次是MapReduce和Yarn(第37-42页)。Spark、MapReduce和Yarn拥有最高水平的供应商支持(第69-70页)。
  • Spark SQL是大数据访问最流行的手段,其次是Hive和HDFS(第43-48页)。对于Hive / HiveQL,行业支持是最大的,其次是Spark SQL。行业大数据访问支持正在增加(第71-72页)。
  • 在大数据搜索机制中,ElasticSearch领导Apache Solr和Cloudera Search,尽管用户需求不大(第49-54页)。大数据搜索正在获得一些行业投资,但不是高优先级(第73-74页)。
  • 最流行的大数据分析/机器学习技术是Spark MLib,其次是scikit-learn(第55-60页)。行业对机器学习的投资正在显着增加,特别是Spark MLib(第75-76页)。
  • 在大数据分布中,Cloudera是最受欢迎的,其次是Hortonworks MAP/R和Amazon EMR。

对于BI最重要的措施和技术排名:

在被认为对商业智能具有战略意义的技术和举措中,大数据分析在我们目前研究的33个专题领域中排名第20(图5)。 这一排名与我们的2016年大数据分析市场研究相同。 我们应该补充说,2016年是提升大数据采用率和重要性的分水岭。 尽管我们仍然认为,不同组织的大数据收益差异很大,但是在过去的24个月中出现了更为广泛的势头。从本质上讲,我们也观察到大数据距离主流BI实践(如报告、仪表板和终端用户自助服务)的重要性依然很远。

00.png

在2017年的样本中,北美地区(55%)大数据采用率最高(图8)。亚太地区的受访者大部分标识“将来可能会使用大数据”。但是北美和EMEA地区(欧洲、中东、非洲)的受访者两分化也比较严重,也有很多标识“根本没有使用大数据的计划”。

01.png

就地区分布而言,在那些还没有采用大数据的国家中,北美地区受访者在本年度引入大数据的比例最大,同时明年之后引入的也同样最多。亚太受访者大多准备明年采用。

02.png

按行业来看,目前大数据的使用在电信方面是最大范围的,87%的受访者表示他们已经采用(图9)。同样令人印象深刻的是,76%的金融服务机构也已经采用了。相比之下,技术行业受访者中虽然61%已经采用,但是却也有20%并没有计划采用,分化比较严重。医疗保健受访者中只有不到60%的人使用大数据。高等教育目前使用大数据的可能性最小(25%),但是有67%的受访者未来可能会使用。

03.png

大数据用例

2017年最大的数据使用案例是数据仓库优化,对于大约70%的受访者来说,这被认为是“关键”或“非常重要”(图18)。“客户/社会分析”和“预测性维护”(2017年新增条目)是下一个最有可能的用例,至少对大多数受访者来说是“非常重要的”。 值得注意的是,大量讨论的IoT(大数据可能的用例)在我们的抽样中是最低优先级。

04.png

 

  • Dec 22 / 2017
  • 0
Ideas

锐眼洞察 | 2018年度商业智能和分析的发展趋势(翻译)

作者:Paramita Ghosh 

原文:Business Intelligence and Analytics Trends in 2018

译者:TalkingData副总裁 皮山杉

本译文禁止商用,转载请注明来源与译者!

由于近年来机器学习(ML)和深度学习(DL)的快速发展,2018年商业智能和分析趋势也将发生相当大的变化。物联网(IoT)和大数据在全球商业环境中的深入渗透自然引发了对智能商业智能(BI)系统的需求,智能商业智能(BI)系统可以在很大程度上实现决策自动化,从而减少对于数据专业人士的需求。

如果目前用于金融服务,投资银行,市场研究甚至医疗保健行业的商业智能系统都是标准的话,那么基于机器学习支持的智能数据发现(Smart Data Discovery)是推动不同类型和规模的企业游戏规则变革的助推器。

根据Gartner的统计,到2020年,商业智能市场预计将增长到228亿美元。那么,改变游戏规则的商业智能和分析趋势会给企业带来什么呢?当然是 – 更好的可视化以及深度数据钻取功能。虽然商业智能系统在技术上越来越复杂和复杂,但这里有一些已经预测到2018年的变革趋势。

市场规模和技术范围

根据商业智能统计数据显示,商业智能市场预计2018年将增长到208.1亿美元,2018年BI和分析市场的突然增长将包括:传统商业智能,基于托管(云)的商务智能,社交商务智能和移动商务智能。 2018年整个市场将触及208亿美元,这意味着“从2013年到2018年估计年复合增长率为8.3%”。

“福布斯”博客发表了一篇题为“数字化转型十大趋势(Top 10 Trends For Digital Transformation In 2018 )”的博客文章指出,物联网支持的业务分析有能力最大限度地提高每个行业从“零售到城市规划”的运营效率。像IBM或SAP这样的技术火炬手正更多的投资于商业分析功能,现在的物联网和大数据承诺实时提供流处理,运营和交易数据。另一个普遍技术的例子是区块链,它开始于金融服务,但逐渐进入了酒店,医疗保健和其他一些行业。根据Datamation统计,到2020年,只有20%的贸易融资将利用区块链,但一旦趋势确定下来,就不会有回头反复了。

数据分析的兴起和发展

数据分析在全球商业社会中的突然出现是由业务数据的数量和种类引发的,这给商业智能和分析用户带来了独特的挑战。 “数字杂志”杂志的“商业智能分析的大趋势”一文指出,商业智能变革不仅会增加用户的接受度,而且会促进主流商业用户之间商业智能平台的利用率。同时阅读“2018年前10大技术趋势”,了解人工智能,云计算,物联网和商业应用将如何共同为重塑每个企业的IT环境做出贡献。

2018年BI和分析市场的主要技术趋势

业界普遍认为,鉴于即时和准确决策的重要性,每个商业用户都希望能够独立地对数据进行可视化展示和分析,以改善结果。根据2018年发布的名为“顶级商业智能趋势”的博客文章,“现代”商务智能的特点是数据可视化,深度数据挖掘和智能自助服务分析。

这篇Dataviz文章的作者声称在2018年的十大战略技术趋势中,Gartner的智能应用程序和分析技术趋势2将确保在未来几年,每个业务应用程序或服务都包含某种程度的AI。本文进一步指出,市场对“处处AI”的迷恋正在引发所有分析平台和服务提供商的争夺战。

Forrester Wave BI平台上的报告传统上将高级可视化工具与低端报表和常规可视化平台分开。根据“Forrester Wave™:主要私有部署的企业级商业智能平台,2017年第三季度“文章,具有先进商业智能功能的企业商务智能平台需要数据专业人员来开发输出。另一方面,如Tableau,Qlik等主流BI平台满足了普通商业用户的需求。但是,现在Forrester承认,高级可视化对于大多数BI平台都是不可或缺的,特别是因为基于云的BI使中型或小型企业可以访问高级分析。在BI平台上,现在通常会发现许多将可扩展系统与低端系统区分开来的功能。
商业智能和分析趋势总体上的变化导致了两个主要的挑战,各种规模的企业必须缓解这个挑战:使商业智能民主化和从分析活动中提取实际价值。

挑战1:管理大量商业数据

随着2018年全球业务逐渐利用新颖的智能数据发现和增强分析平台,最困难的问题始终是大量的数据。在传统的BI&Analytics系统中,80%的数据没有被使用或利用不足,从而严重限制了分析系统的实用性。现在,托管的BI平台和物联网设备倾倒出不同类型的数据,因此需要使用高级数据编目工具来访问来自许多不同来源的数据。阅读ZDNet的文章“数据决策:利用分析的新趋势”,了解企业如何计划面对数据量挑战。

挑战2:ML驱动预测模型的局限性

根据Forrester Wave™:预测分析和机器学习解决方案,2017年第一季度,2017年的数据科学家需要开发ML驱动的预测模型的工具以及管理模型的平台。虽然这些BI平台在数据专业人士中颇受欢迎,但是从来没有人认为这些工具有潜力取代人类的数据科学家,并为自助式商业智能让路。也就是说,随着企业继续依赖大数据,云计算,物联网和预测分析工具支持的所有类型决策的自助式BI和分析工具,具有卓越数据可视化功能的自助式分析平台将在2018获得坚实的认可。

根据2018年“商业智能看起来如何?”的博客文章,组织将接受“自助服务”商业智能,当然还有更多的治理,以便业务用户对他们分析的数据拥有更多的控制权。

增强数据准备和增强分析

增强型数据准备和增强型分析旨在为公共数据科学家提供超越数据发现的工具,并帮助准备业务数据,以便为未来业务规划提供“战略,运营和战术活动”。通过增强数据准备,普通业务用户将能够在没有IT人员帮助的情况下针对特定假设测试数据。另一方面,Augmented Analytics将通过先进的启用ML的工具提供洞察力。这两项新技术的最终目标是迅速提高用户的接受度并增强数据意识。(在DATAVERSITY®可以了解的什么是增强型分析以及为什么这很重要?)

2018年业务分析的景观:顶级趋势

考虑到刚刚描述的下一代商业智能和分析的两大挑战,以下是可靠的行业文献所证实的2018年商业智能和分析趋势:

  • 增强数据准备将在业务用户中获得普及,因为他们将能够在没有IT人员的帮助下执行数据测试任务。
  • 数据可视化作为2017年趋势的领跑者,将在2018年继续主导BI平台。
  • 智能数据发现将为2018年的预测分析带来巨大的推动力,使其成为最受欢迎的业务分析活动。
  • 随着对“视觉”的热情,公民数据科学家或主流商业用户将在2018年依靠移动分析来进行日常决策。增强型分析将成为主流BI用户的追捧能力。
  • 大型组织将大量投资建立内部BI /分析平台。

这篇名为“商业智能(BI)趋势”的博客文章描述了这些即将到来的趋势。在DATAVERSITY®从数据中获取价值,数据发现必须第一!这篇文章的读者将会体会到现代商务智能系统的高级统计工具和ML功能,它们带来了创新分析解决方案的前景。由于通过卓越的数据可视化和数据理解提高了数据意识,这一直是可能的。

虽然传统商务智能技术缺乏良好的数据存储设备或良好的数据可视化工具,但现代的ML功能分析平台带来了更好的数据可视性和理解能力。新的数据发现方法可以大幅降低成本并提高成果。

 

随时欢迎您 联系我们