锐眼洞察 | 数据仓库的过去和现在(翻译)

作者:Amber Lee Dennis 

原文:The Data Warehouse: From the Past to the Present

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明来源与译者!

“数据仓库之父”Bill Inmon将数据仓库(Data Warehouse,DW)定义为“支持管理决策过程的面向主题的、集成的、随时间变化且非易失性的数据集合”。在他的白皮书“现代数据架构”中,Inmon补充说,数据仓库代表“传统智慧”,现在是企业基础架构的标准组成部分。

数据挖掘教科书作者Han、Kamber和Pei在KDnuggets的数据科学家Matthew Mayo的一篇题为“大数据关键术语解读”的文章中引用了数据仓库的概念,他将数据仓库定义为一种数据存储架构,允许“企业管理人员系统地组织、理解和使用他们的数据来制定战略决策。“当然,数据仓库是许多现代企业中已知的架构。

数据仓库已经成功地用于多种不同的企业用例,尽管数据仓库也已经转变,但如果他们想要跟上当代企业数据管理不断变化的需求,就必须继续。

Bin Jiang在“Inmon的数据仓库定义仍然准确吗?”一文中 重新解释Inmon的数据仓库定义,称之为“一种基于基础架构的信息技术,用于组织定期整合、收集和准备数据,以便于分析”。

Oracle的数据仓库指南将数据仓库定义为关系数据库:“专为查询和分析,而不是交易处理。 它通常包含来自交易数据的历史数据,但可以包含来自其他来源的数据。 它将分析工作量与事务工作量分开,并使组织能够整合来自多个来源的数据。

Oracle的数据仓库指南以多种方式扩展了Inmon版的四个特点:

  • 面向主题:数据仓库旨在帮助分析数据。 例如,要了解有关公司销售数据的更多信息,可以构建专注于销售的仓库。 使用这个仓库,可以回答“谁是我们去年这个项目的最佳客户?”这样的问题。这种按主题定义数据仓库的能力(在这个例子中是以销售为主题),使得数据仓库以主题为导向。
  • 整合:整合与学科定位密切相关。 数据仓库必须将来自不同源的数据转换成一致的格式。必须解决诸如计量单位之间的冲突和不一致之类的问题。 当实现这一点时,才被认为是一体化的。
  • 非易失性:非易失性是指一旦进入仓库,数据不应该改变。 这是合乎逻辑的,因为仓库的目的是使人能够分析发生了什么。
  • 时间变量:为了发现业务趋势,分析师需要大量的数据。 这与在线事务处理(online transaction processing,OLTP)系统形成鲜明对比,在这种系统中,性能需求要求将历史数据转移到归档。 数据仓库关注随时间推移产生的变化,是时间变量一词的含义。

数据仓库结构

Oracle将数据仓库体系结构分解为三个简单的结构:基础层、具有分段区域的基础层、以及具有分段区域和数据集市的基础层。 基本结构中,操作系统和平面文件提供原始数据、存储数据以及元数据和摘要数据,最终用户可以访问它进行分析、报告和挖掘。 添加一个位于数据源和仓库之间的分段区域,为进入仓库之前要清理的数据提供了一个单独的位置。 Oracle表示有可能“为组织内的不同团体定制仓库架构。 可以通过添加数据集市来实现这一点,这些数据集市是针对特定业务领域而设计的系统。”例如,可以在仓库中为销售、库存和采购单独设置数据集市,终端用户可以从一个或所有部门数据集市访问数据。

数据仓库是如何搭建的?

Eckerson集团首席顾问Wayne Eckerson在一篇名为“构建数据仓库的四种方法”的文章中比较了创建数据仓库最常用的方法。

他说:“数据仓库管理人员需要了解这些方法,但是不要依赖这些方法。 “这些方法论形成了有关数据仓库最佳实践的争论,并构成了由咨询顾问开发方法论的基石。

Eckerson讨论的数据仓库的四种主要方法是:

自上而下法的主要特点:

  • 强调数据仓库。
  • 从设计数据仓库的企业模型开始。
  • 部署由临时区域、数据仓库和“依赖”数据集市组成的多层架构。
  • 暂存区是持久的。
  • 数据仓库是面向企业的;数据集市是功能特定的。
  • 数据仓库具有原子级数据;数据集市拥有摘要数据。
  • 数据仓库使用基于企业的规范化模型;数据集市使用主题特定的维度模型。
  • 用户可以查询数据仓库和数据集市。

自下而上法的主要特点:

  • 强调数据集市。
  • 从数据集市设计维度模型开始。
  • 使用由分段区和数据集市组成的“扁平”架构。
  • 暂存区在很大程度上是不持久的。
  • 数据集市包含原子数据和摘要数据。
  • 数据集市可以提供企业和功能特定的视图。
  • 数据集市由单个星型模式组成,按逻辑或物理部署。
  • 数据集市逐步部署,并使用一致的维度“集成”。

混合法的主要特点:

  • 强调数据仓库和数据集市;融合“自上而下法”和“自下而上法”。
  • 从同步设计企业和本地模型开始。
  • 花2-3周的时间创建一个高层次、规范化的企业模型;通过初始集市来充实模型。
  • 通过非永久性中转区域填充原子和摘要数据。
  • 模型作为一个或多个星型模式的集合。
  • 使用ETL工具填充数据集市,并在ETL工具和数据集市之间交换元数据。
  • 当用户需要在原子级上查看各个集市的视图时,在数据仓库后面填充数据仓库;实例化“充实”企业模型,并将原子数据移动到数据仓库。

联合法的主要特点:

  • 强调需要整合新的和现有的异构BI环境。
  • 由多个架构组成的架构。
  • 承认组织和系统发生变化的实际情况,导致难以实施正式的架构。
  • 合理使用任何可能的方式来实施或整合分析资源,以满足不断变化的需求或经营状况。
  • 鼓励组织尽可能分享维度、事实、规则、定义和数据。

通过理解这些不同的方法,Eckerson说,组织可以根据最佳实践模型的基础创建一个满足其独特需求的方法。

数据仓库:主题的变化

Bin Jiang在根据分类定义数据仓库变量中,基于四个变量和八个类来分类数据仓库。

第一按数据源端特征分类。 如果数据仓库只有一个源应用程序,那么将其视为“单一来源”,如果它不是单一来源,则将其归类为“多来源”。

第二是基于组织或前端分类。专用于组织一部分的数据仓库被认为是“部门数据仓库”,整个组织所使用的数据仓库被分类为“企业数据仓库”。

第三是基于时效性或新鲜度。 如果内容每隔一段时间更新一次,例如每天或每周更新一次,Jiang将其归类为“周期性数据仓库”。如果内容在生成或更改后很快更新,则将其归类为“实时性数据仓库”。

第四个分类是基于地理或地理位置。 如果仓库的主要数据对象在不同的地理位置进行存储和处理,则数据仓库被分类为“分布式”;如果所有的数据对象都保存在同一个位置,则数据仓库被分类为“集中式”。

数据仓库的演进

历史上,数据仓库已经发展到使用在进入数据仓库之前已被过滤的结构化重复数据。 Inmon说,近年来,由于使用了可以附加到非结构化数据并可以存储入数据仓库的上下文信息,数据仓库得以演进。 Inmon说:

 “之前,结构化的关系数据不能和非结构化文本数据混合匹配分析。 但随着情境化的出现,这些分析类型可以自然且容易的完成。”

在数据仓库中,诸如调研反馈、电子邮件和对话等非重复性数据的处理方式,与例如点击流、计量或机器或模拟处理这样重复出现的数据不同。Inmon说: “非重复性数据是由书面或口头文字产生的基于文本的数据”,进行阅读和重新格式化,更重要的是,现在可以进行语境化。 为了从数据仓库中使用的非重复数据中获得意义,必须具有所建立数据的上下文。

Inmon还表示:

“在很多情况下,非重复性数据的上下文比数据本身更重要。 无论如何,在建立上下文之前,非重复的数据不能用于决策。”

数据湖和数据仓库:相互排斥还是完美伙伴?

在“来自Gartner的警告:不要混淆数据湖与数据仓库”一文中,Gartner的研究总监Nick Heudecker认为,近年来数据湖已经出现在数据管理领域,但数据湖不一定能代替数据仓库。数据湖不是现有分析平台或基础架构的替代品,相反,其是对现有努力的补充,并帮助发现新的问题。他说,一旦发现这些问题,就会通过”优化“来获取答案。而优化可能意味着放弃数据湖,进入数据集市或数据仓库。

在“数据湖vs数据仓库的关键差异”一文中,SAS Institute新兴技术总监Tamara Dull概述了数据湖和数据仓库之间的一些主要差异。

  • 数据:数据仓库仅存储已建模/结构化的数据,而数据湖则不要求数据格式。 它将其存储为全结构化、半结构化和非结构化的。
  • 处理:在企业,将数据加载到数据仓库之前,首先需要对数据进行一些加工和结构化——即数据建模。 这就是所谓的写模式(schema-on-write)。 使用数据湖,只需按原样载入原始数据,然后当确定数据形状和结构的时候就是做好数据使用准备的时候。 这就是所谓的在读模式(schema-on-read)。 两种截然不同的方法。
  • 存储:像Hadoop这样的大数据技术的主要特点之一,是与数据仓库相比,存储数据的成本相对较低。 这主要有两个原因:首先,Hadoop是开源软件,所以许可证和社区支持是免费的。 其次,Hadoop被设计成安装在低成本的硬件上。
  • 敏捷性:根据定义,数据仓库是一个高度结构化的存储库。 改变结构在技术上并不困难,但考虑到所有与之相关的业务流程,这可能会非常耗时。 另一方面,数据湖没有数据仓库的结构化要求,这使开发人员和数据科学家能够轻松地配置和重新配置模型、查询和应用程序。
  • 安全:数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)相对较新。 因此,在数据仓库中保护数据的能力比保护数据湖中的数据要成熟得多。 但是,应该指出的是,现在大数据行业正在大力开展安全工作。一切只是时间问题。
  • 用户:长久以来,大家一直在呼吁BI和分析。数据仓库已建立并欢迎“每个人”来使用,但他们来吗? 平均而言,有20-25%的人使用。对于数据湖来说,是否有相同的需求? 数据湖是否也对每个人开放? 不,如果你够明智。 Tamara Dull说,数据湖在这个阶段更适合数据科学家。

数据仓库不断发展

Bill Inmon看到了数据仓库的巨大发展潜力并正在向前推进。 他认为:

基于事务的数据的经典分析处理是一如既往在数据仓库中完成的。 这没有什么改变。 但是现在可以对情境化数据进行分析,而且这种分析形式是全新的。 以前大多数组织都不能根据非结构化文本数据做出决策。现在有一种新的分析形式可能运用于数据仓库,这是混合分析。 混合分析是使用结构化事务数据和非结构化上下文数据的混合来完成分析。

他补充说:“还有许多其他形式的分析也是可能的。”这些形式包括预测和规划分析,以及各种机器学习技术和其他正在改变数据管理和分析方式的技术。 数据仓库一直是企业数据架构的主要组成部分,根据像Inmon这样的专家所讲,数据仓库在大数据和高级分析的新世界中拥有强大的未来。

数据仓库就像其他传统的数据管理工具一样, 在未来多年中,其重要性仍将是有效的数据管理的关键。

发表评论

电子邮件地址不会被公开。 必填项已用*标注