c语言sscanf函数的用法是什么
263
2022-11-20
构建数仓指标体系3:指标业务侧梳理
指标资料组织整理,真正的情况更多是一个跳跃的过程,而不是一个循序渐进的过程,因此,本文建议大家作为一个待办事项参考来用。数据体系在全世界实话说也没有一个非常标的标准,标准化程度越高,消费工作量越大,所以建议大家按实际资源情况看着办。
资料重组后,可用指标清单应该就出来的了,下一篇文章会介绍原子指标、派生指标、复合指标的拆装过程,这个过程很难用文字表述的,我得构思一下。。。
一、数据标准化
1.1 组织架构标准化
组织架构标准化的主要工作是,把指标和报表中的“管理部门”,与HR提供的组织架构进行匹对,并且标准化。因为这只是一个比较简单的替换过程,模版没有进行更改,我就不举例了
1.2 维度标准化
维度标准是一个比较重要的工作,主要是把维度的名称标准化,而不是维度的详细内容。
如物料、配件两个维度有可能是代表同一个事,所以要把相关的标准化工作做一个影射(mapping)。一般我会做一个对照关系表,以便让技术人员有取值的标准,同时业务部门也能延用他们原来的称谓。
另外,标准化的时候,建议把未标准化指标的维度所在库表记录,以便后续技术人员可以更方地进行建模、数据清洗和数据影射。
1.3 时间维标准化
时间维我是单拎出来了,处理过程相对简单,全数仓统一就可以了,影射这个必要性不大,因为“天”和“日”相关没有人会理解错的。
另外,我们在做时间维的时候,一般还会做扩充,当然这个扩充肯定是以企业的自身为基础的,先看下图:
上面写的特殊节日,类似白色情人节这种商家做出来的节日。有了时间维后,我们以后做很多分析便有了标准。其实我们还可以继续扩展的,如把中午11:30~13:00定为高峰时间段(餐饮行业)等。
1.4 应用场景标准化
嗯。。。互联网等基本上做不到,但做不到也提一下,表示不是没考虑到,而是无法实现。。。大家也可以拍砖。。。
当然,在非互联网领域,如金融等,其实他们的主题、应用场景等相对固定,当然也与他们用管理视角看问题有关,如TeraData金融10的大主题,见下图:
1.5 主数据及参考数据标准参照
这块主要是对一下哪些是系统用到的主数据与参考数据,以他们为准就可以了
1.6 业务术语标准化
业务术语标准化,核心的逻辑要把业务术语区分企业级的,还是部门级别的,若是企业级别的业务术语,需要进行相关的标准化动作,如下图,黄色的是新增的字段:
二、指标业务侧梳理
2.1 报表指标平滩至指标清单
即把报表中的指标单独提取出出来,填至指标清单中,由于调研的时候理论上已经把指标作了一定提取,这里就不再详述了
2.2 指标排重
该步骤,将在指标状态中,新加一个状态,我平时会用三种:在用,停用,重复。重复的判断就是,取值逻辑一致。
2.3 主题域划分
域这个词,可以和“分类”这个词划等号,粗暴一点的可以叫“归堆”。
不少同学可能会问,这些分类和归堆,究竟价值几何?
其实划分主题域,主要还是管理的需要,若是做得相对好一点,可以从技术、业务、管理三个维度划分主题域,到时候找指标的时候,会找得顺畅一点(也就是所谓的数据资产地图)。这一点Teradata在金融行业的模型就做得很透彻,可以说无论你从什么观察角度和关注点找,都能找到相关的主题模型,而且分得很细致(在Teradata的理念里,同一个实体是可以出现在多个主题模型中的)【重点说一下,我不是Teradata的人,也不卖他们产品广告,只是觉得真有参考价值】
2.4 指标取值逻辑技术化
一般来说,业务提的指标取值逻辑,技术人员比较难理解,这就要求我们的分析师转化为技术能看得懂的语言了,如:
原取值逻辑描述:
新增备案营销员项目数量:新增关联到项目下的营销员
可翻译为:
统计更新时间是当天并且营销员字段不为空的项目数量
2.5 增加指标编码
就是加一个全企业唯一编码,可以按实际情况编,一般是采用“分公司-部门-序列”的形式
2.6 与应用场景匹对
每一个指标都有一定的适用场景的,场景可能是一个或多个,需记录下来
2.7 增加版本号
指标一般会迭代的,因此要增加版本号
2.8 增加录入员/维护员
一般是IT的录入/维护员
2.9 最终展示形式
黄色是指标整理后新增的:
当然,大家还可以继续在标签管理上加上自己的一些字段进行维护。。。
2.10 总结
其实标签管理不是一个特别难的事,难在更新迭代的时候的维护需要时间和精力,因此如果有系统支撑会稍好一点,否则可能两三个迭代后,就没有维护了。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~