上海古都建筑设计集团,上海办公室装修设计公司,上海装修公司高质量的内容分享社区,上海装修公司我们不是内容生产者,我们只是上海办公室装修设计公司内容的搬运工平台

数据仓库表级血缘应用

guduadmin11天前

数仓血缘应用(一):表血缘热度


文章目录

  • 数仓血缘应用(一):表血缘热度
  • 前言
  • 一、价值衡量指标——应用层
  • 二、血缘节点应用——热度
    • 1、指标透传(应用层——>数仓)
    • 2、指标应用(热度)
      • 2.1、数仓血缘节点关系
      • 2.2、热度
      • 2.3、热度应用
      • 总结

        前言

        在数据仓库的建设过程中,伴随着时间的迁移或多或少会遇到一些问题:

        1、模型越来越多,表也越来越多,运维压力愈来愈大,当一大波问题来临时,感觉每张表都需要保障,但对优先保障哪些表没有数据支撑

        2、业务口径的变化导致需要对下游数据链路进行改造,但数据链路较多,优先保障哪些链路、那些表没有数据支撑

        3、数仓应用层报表在业务侧实际的使用情况如何?哪些模型可以下线?(减少人力成本与资源消耗成本)

        面对这些问题我们怎么应用数据去提供更好的支持?


        一、价值衡量指标——应用层

        数据仓库的价值在于提供数据整合和一致性、支持决策制定、提供业务洞察力、提升工作效率和改善风险管理能力。它为企业提供了一个强大的数据分析和管理平台,帮助企业更好地理解和运营其业务。

        数仓的价值在于为企业、为相关业务提供强大的数据分析能力。而如何衡量数仓哪些模型更重要——无外乎业务应用的更加频繁。呢么通过BI的pv、uv数据我们就可以获取到数仓应用层报表的重要程度。

        数据仓库表级血缘应用,在这里插入图片描述,第1张

        结论:从上图来看,应用层的报表从左到右访问量逐级递减。我们很清晰的可以知道表A对业务的帮助是最大的。

        二、血缘节点应用——热度

        1、指标透传(应用层——>数仓)

        业务需要分析的数据一般在数仓中加工完成后通过ads层出库至应用层数据库并通过BI工具配置成相关报表呈现给业务进行分析,也就是上图我们展示的表A~F。

        这里我们仅做一个简单的模型模型分析(忽略配置BI工具时的多表关联等情况),可以近似的认为应用层BI报表与数仓ads层表存在一一映射的关系。这样我们就可以将应用层的价值指标pv、uv透传至数仓表,为每一个数仓表打上热度标签。

        数据仓库表级血缘应用,在这里插入图片描述,第2张

        2、指标应用(热度)

        2.1、数仓血缘节点关系

        数据血缘也称为数据血统或谱系,是来描述数据的来源和派生关系。说白了就是这个数据是怎么来的,从那个表来到那个表去。即下图所示的表节点间关系

        数据仓库表级血缘应用,在这里插入图片描述,第3张

        2.2、热度

        通过结合数仓血缘节点关系与应用层指标,我们可以获取数仓各层级表的应用热度,为我们的运维工作提供相应的数据支持。

        注:这里热度仅通过简单的加法运算处理。实际应用中在数仓不同的层级间还需计算相关的层级系数,保障热度数据更有效。

        数据仓库表级血缘应用,在这里插入图片描述,第4张

        2.3、热度应用

        表名热度top
        dws113001
        ads_A10002
        dws28003
        ads_B5004
        dws34505
        ads_C3006
        ads_D1007
        ads_E508
        dws4109
        ads_F1010

        结论:根据数据热度我们可以得出表dws1时在当前模型中的影响较大,保障优先级最高!


        总结

        本文仅仅简单介绍了数据血缘在数仓中的一种应用场景。而血缘的价值远非如此。期待和大家一起交流学习。

网友评论

搜索
最新文章
热门文章
热门标签