本篇文章给大家谈谈数据治理平台系统简介,以及数据治理平台 排名对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
今天给各位分享数据治理平台系统简介的知识,其中也会对数据治理平台 排名进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
数据治理的定义和架构
数据治理的定义
数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
数据治理涉及的IT技术主题包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。
数据治理的技术组成
数据治理涉及的技术主题包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。
所有与数据有关的技术产出物全部通过知识库实现相互之间共享,知识库作为数据治理的后台通道,传输不同平台、环境、技术、工具所提交和需要的元数据信息。
数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织的数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。
如下以某公司数据治理架构为例:
该数据治理平台融合元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全9大产品,每个模块功能可互相调用,全程可视化操作,打通数据治理各个环节,同时提供各个产品模块任意组合。
元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。
数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。
综上所述,数据治理系统的核心组成在: 元数据管理系统 数据标准 数据质量 数据交互传输 数据安全 数据生命周期等 ----不要怀疑---大神告诉你!
数据治理的介绍
从技术实施角度看,数据治理主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
数据治理管理平台有哪些?
目前我知道市面上的数据治理平台有:
亿信华辰-睿治数据治理平台
睿治是一款覆盖数据全生命周期的数据治理平台,它通过对数据从创建到消亡的全过程的监控和治理,实现数据的统一管理,为企业保证了业务数据在采集、集中、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性,从而帮助客户建立起符合自身特征的数据架构和数据治理体系。
石竹软件-石竹数据治理平台
普元元数据管理平台已经具有在多家银行成功实践经验,可以应用到银行、保险、证券、基金、政府和制造等不同行业的领域
普元信息-普元数据质量管理平台
分析功能包括血统分析、影响分析、映射分析、差异分析、表重要程度分析等,能帮助技术人员/业务人员更好地了解现有信息数据存在状况与质量状况,为数据管理定义与维护提供有效的支持。分析功能多以图形方式直观展现。
大数据治理平台——维度管理
苏宁八大产业,每个产业有自己的数据集市,每个数据集市有自己的维度表,没有统一的维度管理(包括管理规范和系统支撑)。业务痛点包含以下几个方面:
建立统一的维度管理系统,实现对维度信息的统一管控,并为集团的数据产品提供统一的维度数据服务,包含维度开发管理,维度信息管理及维度数据服务三个方面。
维度数据
如上图所示,ETL将采集的数据,进行数据清洗之后存储到维度数据仓库(磐石)中,维度系统再将维度数据仓库中的数据同步达到维度库系统。
维度数据存储方式:维度数据一般以一百万的数据量作为分割点,一百万以上数据量的维度采用的存储是HBASE,一百万以下的数据采用的存储是MYSQL。
维度数据同步方式:存储到HBASE的维度数据采用的是BULKLOAD导入,存储到MYSQL的维度数据采用的是SPARKSQL+RDD写入。针对数据同步都已经实现通过页面配置任务的方式一键同步,节省人工。
为什么采用这种存储方式?
1, 针对数据量的大小采用不同的存储引擎,节约存储资源,提高维度服务的稳定性。
2, 实时指标的计算:OALP需要关联维度表和事实表做指标数据加速(实时计算指标数据)。这种需要实时的查询维度表的所有维度属性,调用量非常庞大,所以采用了直接查询HBASE的方式。
3, 维度需要提供基于维度值ID查询维度值名称的服务(包括批量精确查询和模糊查询),HBASE在精确查询上性能较高。MYSQL由于数据量不大,可以再加一层分布式缓存,提高精确查询维度值的性能。
维度建模
1, 选择业务过程
根据业务场景以及可用数据源
2, 声明粒度
根据事实表及应用场景,确定汇总粒度,一般尽可能的用最细粒度
3, 确定维度
根据确定的粒度,定义对应的维度,最细粒度,也是最低层次的维度
4, 确定事实
确认将哪些事实放到事实表中,维度表只是做关联,不做维度数据的查询服务。
维度定义
1. 当增加新的维度时,编码号将在已用号码的基础上递增,四位十进制编码号不能满足需求时,可增加编码号长度为五位十进制数,以此类推。
2. 当删除已有的维度时,其编码号将不再利用。
3. 当修改已有的维度时,其编码号不变。
4. 当拆分已有的维度或合并两个及两个以上的维度时(数据应用场景需要),其编码号的使用原则按照删除原维度,并新增拆分/合并后的维度执行。
维度管理
维度:目前维度平台支持快速定义维度,通过设置维度的基本信息,选择维度映射的维度表,做好维度与维度表的映射,设定维度的一些特性(布尔维度,时间维度,杂项维度等),检测维度的定义结果。达到了让业务人员能够只是通过页面操作就可以制定需要的维度。
维度表:数据开发人员可以通过维度库平台定义维度表,定义好之后可以集成数据仓库的同步任务一键将仓库的数据同步到维度表中,将维度表与维度做映射关系。
维度层级:维度库平台支持定义维度层级,只要是维度库平台上有的维度表并且做好维度与维度的映射关系之后,就可以定义需要的维度层级,根据维度层级提供维度值的上卷下钻查询服务。
维度血缘:提供了维度,指标,报表的血缘关系,以及还准备做的维度数据的血缘,维度,指标,报表调用次数的血缘等等。
维度服务
1. 维度服务调用申请:
调用维度服务,需要在维度库管理系统中申请调用权限。等维度管理系统授权之后,生成维度服务调用授权码,在调用维度服务的时候带上维度服务调用授权码,维度服务会根据授权码判定是否有访问权限。
2. 维度系统提供的服务:
1,对存储在HBASE的维度表,我们又加了一层存储到ELASTICSEARCH(提供维度值的模糊查询服务)
2,针对负载较高的HBASE表,加了一层本地缓存,解决热点问题。
3,对存储在MYSQL的维度表,我们又加了一层存储到分布式缓存ZEDIS(提供维度值精确查询服务)。提供了定时或者手动刷新缓存数据的功能,以及缓存数据的监控机制。
监控分析
由于维度服务的调用量是亿万级别的,系统的监控统计,采用的是Log4j+kafka+druid的架构,如下图所示,应用将调用日志采用log4j- KafkaLog4jAppender写入kafka中,再将kafka与druid集成,准实时的输入druid中,业务基于druid做统计分析,查看维度服务调用成功或失败的情况。
除了维度服务的调用监控,平台还有针对维度值的数据量监控(主要监控暴增或者突然没有维度数据的情况),维度值数据质量的监控(根据维度表和事实表做数据比对,分析维度值数据的差异情况)。维度数据同步任务的监控(每个维度表的数据同步情况监控,异常告警到具体的任务负责人)。通过各种有效的监控手段,来提升维度服务的稳定性和准确性。
1. 未来平台会更加的完善,会有越来越多的维度在平台上建设,提供更加稳定和高效的维度查询服务。
2. 能够支持更多个性化的维度,能够支持维度的数据版本(例如过去一段时间的维度值),支撑全集团所有数据产品的维度调用服务,将平台打造成苏宁主数据服务的航空母舰。
3. 通过维度数据资产体系的建立,实现集团一切业务数据化,连接打通数据孤岛,驱动一切数据业务化,助力企业数字化转型,让数据做到真正意义上的产生价值。
4. 通过提供各种维度数据支持数据产品及各类应用产品,帮助各岗位用户在日常经营决策中做出正确决策。
目前平台的现状及以后的规划
1, 完善系统监控功能点:缓存任务较多,没有有效的监控,告警机制。
2, 完善业务监控功能点:数据量监控,数据异常监控,告警功能
3, 落地维度新增、变更、下线全流程审核管理功能.
4, 完善应用层的维度、指标、报表数据链路的血缘分析图谱,全方位透析资产,
5, 打通全链路维度变更通知的消息机制,降低数据链路变更带来的风险,
6, 多系统用户资源隔离、限流,保障多个部门在使用和体验上的一致性,
7, 支持用户自定义维度、完善个人工作台,基于通用维度进行维度的衍生,
8, 维度门户的建设,将业务端和管理端进行隔离,提升用户体验
关于数据治理平台系统简介和数据治理平台 排名的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
数据治理平台系统简介的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据治理平台 排名、数据治理平台系统简介的信息别忘了在本站进行查找喔。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
暂时没有评论,来抢沙发吧~