锐眼洞察 | 如何正确构建数据平台

作者:Michelle Knight

原文:Predictive Customer Analytics — Part Ihttp://www.dataversity.net/data-architecture-need-choose-right-data-platform/

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明来源!

做了不够理想的数据架构和数据平台,就像是买东西时找不到钱包或现金。 正如McKnight咨询集团总裁McKnight在其DATAVERSITY Database Now! Online 2017 Conference的主题演讲中提到的:“我们可能会被数据淹没,该选择合适的平台了!”

McKnight是一位经验丰富的信息管理战略家,也是《信息管理:利用数据获得竞争优势的策略》的作者。他在发言中强调:

“我们的经济完全依赖于数据的自然资源。 我们的组织拥有(数据)这个黄金资产。我们的组织在未来十年如何竞争并获得优势,完全取决于我们如何使用数据。”

作为推荐数据平台的专家,McKnight在他的职业生涯中进行了多项成熟的研究。他指出,那些更充分运用数据的行业以及行业内的企业,比那些没有充分运用数据的行业和企业做的更好。 McKnight观察到“这些表现最佳的行业和企业们正在扩展其大数据应用。”

那么,为什么现在要考虑数据架构呢? McKnight表示,我们需要摆脱“快我一些数据”和“高效的给我优质的数据”的思路,转向“快速、高效的提供所有数据”。为了实现这种需求,“是时候做些跳出常规、与众不同的事情了。”McKnight表示:

“要处理超出能力范畴的需求很难。 但是我们必须使平台正确适用于工作负载,并使其与数据集成和数据可视化一起工作。 数据仓库不再是宇宙的中心。 那些非关系型平台实际上为我们提供了有价值的参考。”

选择数据平台时该考虑什么?

对于在组织的整个数据架构中构建更高效的数据平台来说,选择正确的数据存储类型至关重要。

McKnight表示:“过去一切都是数据库。 但是现在还有很多其他的选择,比如“严格来讲不在位和字节级的数据库”的基于文件的扩展系统。 基于文件的扩展系统没有围绕数据的相同框架。他建议这样的系统尤其适用于非结构化或半结构化数据。 其他必要考虑的包括:

  • 数据存储位置:McKnight表示:“并不是必须将数据存储在数据中心。”现在有很多更具性价比的云可供选择。 比如私有云、公有云和很多混合云的选择。
  • 工作负载架构:“区分操作性或分析性的工作负载,”McKnight建议。 “短交易请求和更复杂(通常更长)的分析请求需要不同的体系结构。”分解工作负载的需求并围绕这些工作负载正确设计数据平台至关重要。
  • 内存:McKnight观察到,很多人仍执迷于HDDs(硬盘驱动器),他敦促组织“开放一点点”。现在市场上还有很多选择,比如固态硬盘(SSD) 、内存(In-Memory)以及其他较低成本的存储器。

他举了可提供超快速性能的内存数据存储作为示例: “对于选择性的工作负载,它具有很高的专用功能性,为ROI提供更多机会。 我们现在开始更多探索内存的利用。”

他将内存选择比喻为“吹动风帆的风”,这让帆船行驶的更快,并超越其他竞争对手。他表示,内存可能会“在我们进行设计过程时给出更多的容错空间。

不要忘记Data Profile

所谓数据成熟度,就是“创建一个高效的环境,我们可以向环境里添加内容,而无需每次重新开始。”为此,组织需要查看Data Profile。 “我们中的许多人在排列优先事项时是颠倒的。”McKnight说:

“我可以从Data Profile中获得很多信息。 比如数据的大小和类型、是结构化的还是非结构化的、一些示例记录以及数据输入的频率。数据来自哪里? 被访问的频率如何?数据的质量如何?”

云提供了有吸引力的选择

McKnight表示,当他与客户一起为数据平台选项融资时,“许多公司不想处理资本化支出。 他们更愿意操作他们,这就是云模式,对吧?“在思考云时,紧密集成是势在必行。

McKnight提供了以下例子:

“你可能会把你的数据仓库放到云中。 那商业智能呢,你会把它们放到云端吗?数据集成如何? MDM呢,可以放在云端吗? 以上所有都是可以的。 当开始认真思考数据,这些问题就会随之产生。”

他表示,一个成熟的数据架构“现在不是有一些、而是有很多云可以选择”。McKnight强调说,现在有不同的云模型,重要的是找到适合的。

新的选择维度

除了上述因素之外,还需要为数据平台权衡新的选择维度。 如:

  • SQL的稳健性:“SQL中有一些新发现的功能使其具有重要意义。”
  • 内置优化:全面考虑云和数据虚拟化。 优化器现在有更多的作用。
  • 即时弹性:问问自己,是否真的拥有它? 是否真的需要它?
  • 动态环境适应性:评估同时使用并发使用模式的能力。
  • 将计算从存储中分离出来:这对于云计算来说非常重要,可以分别对这两种情况进行扩展。
  • 支持多种数据:需要考虑到,会有JSON、XML和各种形式的非结构化数据流入企业数据环境。

用数据平台取得成功

基于McKnight过去几年所合作的客户,他指出:“用户数量、性能预期、数据量、分析复杂性等方面需求已经开始大幅增加”。因此,成功建立数据平台至关重要,可以通过以下方式来确定:

  • 性能:McKnight将性能视为首要点。他认为:

“我们可以通过平台决策为用户提供更好的性能。 随着他们在数据中的能力而增长并不会受到限制,因为每个查询将需要5分钟。 如果这些查询出现,他们将进入更深层次。 如果您一段时间没有考虑数据平台,那这些就不会发生。”

  • Provisioning:McKnight将其描述为“可以多快地启动并运行数据平台? 它有多敏捷?“
  • 规模:建议考虑:“我可以从小型开始再逐步扩大吗?”
  • 成本:不要过度消耗成本。 保持在组织所能负担的成本。

用数据平台取得成功

McKnight为成功搭建数据平台提供了七条最终建议:

  1. 针对不同规模的企业,现在有各种数据平台可供选择
  2. 选择正确的平台并按规划进行
  3. 从数据的存储类型、布局和工作负载架构开始
  4. 将Data Profile作为选择正确平台的重要依据
  5. 确保数据平台能够支持现有的和未指定的需求
  6. 分析平台应该是分级操作数据存储(ODS)或数据仓库(DW)或数据集市(来自DW或专门供应)或Hadoop
  7. 云现在能够提供更经济的更有吸引力的选择

发表评论

电子邮件地址不会被公开。 必填项已用*标注