:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

锐眼洞察 | 数据目录应该拥哪些能力?

Data, Tech

锐眼洞察 | 数据目录应该拥哪些能力?

作者:TalkingData数据产品经理  史忠贤

本文为TalkingData原创,未经授权禁止转载。申请授权请在评论中留言联系!

从去年开始,一直在思考什么样的数据目录才能满足数据管理的需求,但是由于没有真正的深入到数据治理和数据业务流程中,一直没有比较清晰的思路。今年在梳理标签数据、做数据标准化等过程中,才深刻的认识到数据的杂乱和无序会严重浪费计算和存储资源、增加沟通成本。资源浪费主要体现在,不同人员重复生成一些数据集。沟通成本增加主要体现在,数据和数据规格说明的分离,以及数据集的问题和知识没有沉淀。

针对以上问题,结合当前数据治理中数据目录使用情况和行业调研,对数据目录应有的能力有了更加清晰的认识,总结如下:

一、数据的连接和发现能力

做数据治理就需要清晰的知道公司有哪些数据,通过人工梳理的方式显然已经跟不上数据增长和变化的速度。所以,一个数据目录最基础的能力,就是可以连接公司拥有的多种数据源(如:HDFS\MySQL\Hbase…),并且可以定时的监测新生成的数据,在数据目录中根据规则自动注册为数据集或更新数据集状态(如:对关系型数据库新产生的表注册为数据集,HDFS分区格式数据只更新当前数据集的容量大小)。

二、元数据管理能力

  1. 数据集基本信息:包括数据集的名称、标签、负责人以及存储详情的变动趋势。
  2. 字段描述信息:字段的物理存储类型、字段的业务类型(地址、IP地址等)、字段的描述信息、整个schema的版本控制(尤其对SDK采集到的数据有用)
  3. 数据规格:数据规格是数据资产部门或者数据负责人维护数据说明的页面,包括数据生成方式、数据使用范围、主意事项等。提供数据规格编写能力,方便版本控制,用户可以按照时间线来查询数据规格。

三、数据profile能力

  1. 数据集的条数、空值等。
  2. 针对枚举字段枚举值的统计,针对数据类型字段数值分布范围的统计。
  3. 用户自定义策略的统计。提供用户自定义界面,可以组合各种规则统计数据集中满足条件的数据条数。
  4. 针对各类指标的时序可视化展示。数据的profile有了时序的概念,才能做一些数据趋势的分析,以及监控和报警。
  5. 可配置的数据集profile计算频率。不同的数据集,数据量差距很大,针对MySQL的一个小表profile可能秒出,ETL产生的天库一天的数据只能定时运行了。

四、协作和分享能力

  1. 协作能力:主要体现在数据集相关问题的处理上面。使用数据集时遇到的问题可以在系统中提问,问题会自动转向数据集负责人,数据集负责人需要在系统中答复。所有问题和回答应该以时间线的方式组织,方便其他数据集使用人员的查阅和检索。
  2. 分享能力:关于某个数据集的所有信息,不再以口口相传的形式进行,将数据集及相关信息分享给使用者,使用者可以看到数据集的元数据等详情。

五、检索筛选和用户自组织能力

  1. 检索筛选能力:如果数据目录没有强大的检索能力,系统中数据集的信息和沉淀的相关知识就不能实现其价值,也不能促进系统的良性循环。检索和筛选的内容包括:数据集名称、标签、描述、字段相关信息、问答内容、数据规格详情等。
  2. 用户自组织数据集的能力:不同用户使用数据集的场景不一样,所以组织方式也会不一样。每个用户可以按照自己的理解和需求组织自己的数据目录,方便用户的使用。同时,不同用户根据不同场景对数据集的组织方式也是一种知识,可以沉淀。

六、安全和开放能力

  1. 权限和审计:为数据集的访问提供权限控制。不同的用户在不同的时间有不同的权限,所有用户对数据集的操作都需要做记录。
  2. 开放能力:数据目录应该提供数据集的访问接口,可以支持内部数据探索工具、数据ETL工具的调用,可以支持外部客户的调用和加工。

附总体能力脑图:

数据目录.png

Leave a comment

随时欢迎您 联系我们