c语言sscanf函数的用法是什么
267
2023-02-27
本文目录一览:
从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
最近Gartner在研究报告里明确指出,“元数据管理将是未来企业信息化的核心基础设施”。确实,在大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。但是,很多企业逐渐发现元数据管理直接给企业业务创新带来的价值非常有限。目前的元数据管理现状是什么?如何充分释放元数据管理的业务价值?有哪些实践经验可以借鉴?
目录:
一、现状分析:孤独的企业元数据管理
二、解决方案:面向业务释放元数据价值
三、技术实践:普元的企业元数据管理实践
一、现状分析:孤独的企业元数据管理
元数据管理不能给业务创新带来直接价值的主要原因,在于目前的元数据管理太“孤独”,这种孤独主要体现在以下四个方面:
管理范围窄:目前元数据管理范围窄主要体现在两个层面:第一,只管理了数据仓库相关的元数据,没有将元数据管理扩展到整个企业层面;第二,即使在数据仓库领域,也只管理了部分技术元数据,技术元数据的缺失导致元数据系统不能展现出企业系统的真实情况,业务元数据的缺失导致最终大家只能得到一堆缺少具体业务含义的表结构。
业务难结合:因为缺少和业务的结合,很多企业做完元数据管理系统之后,发现只是数据管理部内部人员在使用,其他部门的人根本没法用。系统都应该是为业务服务的,只有一个部门的人在用的系统是没有生命力的,如何让各部门的人都会使用元数据管理系统是一件很重要的事。
应用场景缺:目前,大部分元数据的应用场景都局限于元数据系统的内部功能,比如血缘分析,血统分析,版本管理等,这些功能都是企业在信息化里面使用到的,但实际上元数据的作用不只是体现在这些有限的功能上。
技术不完善:技术的不完善导致了以上一系列问题的出现。扩展性不强,导致很多元数据管理工具没办法管理企业业务数据和架构;采集能力差,导致只能通过手工做辅录,人工成本高,不能建立完整的信息链路;实时性不高,导致很多企业的元数据管理还停留在T+1(甚至不是T+1)阶段,不能实时了解数据资产状况,跟不上企业数据增长的速度。
二、解决方案:面向业务释放元数据价值
为了让元数据管理摆脱以上“孤独”的现状,可以从四个方面着手:
在技术上增强扩展性,实现自动化采集第一,增强扩展性。现在大部分元数据产品都是符合CWM标准的,只能管理数据仓库相关的元数据,不支持业务、架构等元数据的采集,以位于CWM下一层的MOF为基础,能有效解决扩展性的问题,通过此种方式,普元用元数据管理了新一代平台The Platform中整个微服务架构,实现了服务、数据以及运维过程的统一管理。第二,提升采集能力。元数据管理要采集各种各样的元数据,包括脚本、存储过程、报表等,还得分析各种各样的语法树,这对系统的采集能力要求是很高的,普元的元数据管理平台已实现用自动化提升系统的采集性能,能采集多种元数据,采集率几乎达到100%。
增强业务元数据管理能力,让业务用户广泛使用充分释放元数据管理业务价值的前提是让业务人员学会使用元数据管理系统,因此如何采集到业务元数据就变得非常重要。通过Excel采集业务元数据的方式,需要业务人员来填写各种各样的数据项,即使采集到系统中,也无法建立业务元数据与技术元数据的关联,无法体现业务数据在技术上的路径。为了解决上面的问题,自动化采集是必不可少的,另外还可以通过从文档里去分析业务元数据,再和技术元数据做对应的方式,让更多用户参与到元数据系统的使用上来。
与业务结合,实现面向业务的定制化应用现在元数据管理系统只局限在内部特定功能的使用,为发挥元数据管理的价值,应该把元数据做成一个服务化的系统,嵌入到企业各个场景中,给其他系统提供能力,让其他系统变得更自动化,让元数据管理变成企业一个很重要的基础设施,集成到企业信息化的方方面面。
打通数据生产线,形成自助数据供给不少企业都遇到过这样的问题:开发人员向数据部门索要数据时,数据部门需要逐个讲解数据的含义并把数据导过去,讲解的难度随着系统的增多而增大。元数据能帮助企业打造一个自助的数据生产线,让开发人员很容易地从数据平台中拿到所需数据,把整个产业线变得更简单,减轻数据部门的工作量的同时还能提高业务开发人员的满意度。
三、技术实践:
普元的企业元数据管理实践
中国东方航空:业务化的数据地图原来的数据地图只有技术人员能看懂,但是业务人员更关心和业务相关的事情,关心的是业务数据的分布。所以,普元梳理了整个东航的模型,用业务人员能理解的方式展现出了这些数据。通过数据资产管理平台的建设,东航实现了业务化数据地图的展现。普元借鉴达美航空经验,分析了航空领域模型中近2000个实体,逐个核对了1249张业务系统表数据,梳理出了数据主题域、数据实体、业务系统在内的三层结构的数据地图:包括航班、票务等13个主题域,针对每个主题域给出了多达227个业务实体目录及定义,给出了每个业务实体对应的数据库表与业务系统。
浙江电力:基于业务元数据的业务用户自助数据查询因为业务人员的IT水平有限,没办法自己设计报表,也没办法自助查询数据,所以浙江电力每天都要处理大量来自业务人员的需求。普元帮助浙江电力梳理了所有的元数据,并跟报表线做了整合,通过对应业务元数据和技术元数据,让业务人员可以查询业务数据对应的技术通路,从而自助设计报表,大大减小了数据部门的工作量;普元还帮助浙江电力做了针对业务流程的数据地图,业务人员从数据地图上能直接看到每个流程节点对应的数据,通过这种方式,让业务用户自己找到所需的数据。
德邦物流:自动化、实时的数据资产采集德邦已经建立了比较完善的数据平台,普元元数据管理平台,帮助德邦管理了90多个业务系统,优化了整个现有流程,实现了各种环境的自动化采集(数据库、ETL、服务、报表、GP、存储过程等),采集准确率达到了95%-99%。自动化采集之后,德邦放心地去掉了500多张报表中跟任何系统都没有关联的50张无用报表,大大减少了报表维护费用。
对于开发中的测试部署阶段,理想状况下,设计态、测试态、生产态中的元数据是一致的,通常开发管理者需要比对设计态和生产态,根据比对结果判断系统能否上线,运维人员也需要在系统上线之前,提前分析出系统上线给其他系统带来的影响。之前这些都需要人工完成,项目完成后,元数据已经融入了德邦的每一个开发环节,通过元数据管理系统可以完整比对不同状态之间元数据的差别,直接给出对比差异报告,开发管理者和运维人员根据报告就能判断系统能否上线。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~