本篇文章给大家谈谈元数据管理平台开源,以及关于元数据管理平台对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
今天给各位分享元数据管理平台开源的知识,其中也会对关于元数据管理平台进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
壮实学数据技术07:元数据
hi,米娜桑,我是大家的怪力少女赵壮实!
又是一个美好的周六的早上,今天我们来聊聊——元数据!
元数据也是近两年才火热起来的产品岗位和概念,因为偏向于后侧,相比于数据分析、数据BI、用户分层、归因等酷炫的名词下,元数据就像一朵白莲花。
01 什么是元数据?
好吧,元数据为什么可以睥睨一切呢?因为它是“元”数据。
啥是“元数据”——metadata?
壮实见到这个词语,第一次流下了久别重逢的泪水,甚至有点想笑,莫非,元数据,是一位熟悉现代主义思潮的大佬起的名字?
好的,壮实先从人文视角解释一下什么叫做“元”。
元,依旧指的是原始、原初的意思。我们那元叙事、元数据、元小说给大家讲讲什么是“元”。
1.“元”+“叙事”=元叙事
对于叙事的完整解释,即对历史的意义、经历和知识的叙述
2.“元”+“数据”=元数据
有关于数据的数据
3.“元”+“小说”=元小说
元小说,作家自觉地暴露小说的虚构过程,产生间离效果,进而让接受者明白,小说就是虚构,不能把小说当作现实。这样,虚构在小说中也就获得了本体的意义。
好吧,简单来说,元就是这个东西原始的框架、元素。在现代主义大工业的背景下,人类一切进入了“秩序模式”,所以需要“元”。所以就有了万物“元”化。
是的,大家是不是最近还会听到一个词,叫做“元认知”。没什么神奇的,套用概念,元认识就是关于认知的认知,也许善友老师“第一性原理”和叫兽“时间的朋友”或许是“元认知”?
那元数据,我们就好理解了,就是“关于数据的数据”,有了元数据,它可以让我们的数据生产、使用更加秩序化。
数据生产,有的人会叫做“后台元数据”:指导数据清洗装载工作。
数据使用,有的人会分为“前端元数据” :描述性、帮助我们更加流畅的使用报表和查询工具。
对于元数据的分类,我们可以分为以下三类:
业务元数据 从业务层面描述元数据。
技术元数据 数据技术层面上的各种统计信息,包含数据类型、长度、血缘沿袭、数据剖析结果等。
处理过程元数据 ETL自身执行结果统计信息,如多少行被加载、多少行数据被丢弃以及数据加载时间等。
02 元数据核心理念和关键要素
话不多说,我们来上阿里云官方ppt:
好的,如果你们看不懂,壮实还画了一个图:
原来的数据生产-使用流程
涉及的相关的元数据
03 元数据产品
目前国内的元数据管理工具大概有三类。
一是像IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的MetaStage,CA的DecisionBase;
二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具;
开源产品Pentaho Metadata示意图
三是像普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。
普元元数据驱动的微服务架构:
https://cloud.tencent.com/developer/article/1080067
https://cloud.tencent.com/developer/article/1080078
新炬网络元数据管理系统:
http://www.shsnc.com/index.php?m=contentc=indexa=listscatid=188
石竹MetaOne产品图:
专门的元数据管理工具,对自家产品兼容较好,一旦涉及跨系统管理,就不尽如人意了。
04 元数据的功能和价值
如果你问我,元数据的功能和价值在哪里?目前,业界开展了一些实践:
1、血缘分析:向上、向下表级、字段级别的追溯数据。血缘分析可以让您轻松知道:“我正在查看的报告数据来源是什么?”、“数据经过哪些转换处理?”、“销售额”从包含税费更改为不包括税费,哪些下游字段受到了影响。血缘分析可以满足许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。
2、指标一致性分析:定期分析指标定义是否和实际情况一致。大佬会上对不齐数据是何等的尴尬。。。。
3、实体关联查询:事实表与维度表的代理键自动关联。
05 后记
打破一切:从人文后现代主义到数据后现代主义。
20世纪60年代,德国、法国、美国等出现了反西方近现代体系哲学倾向的思潮,学术上称之为“后现代主义”。你也许不知道啥是后现代主义,来一张图感受一下:
对!就是达利的《记忆的永恒》。
后现代主义就是一种用无序反对有序,用个人呓语反对宏大叙事、用解构反对结构的一种精神。
当代美国活跃的后现代主义者之一格里芬就说:“如果说后现代主义这一词汇在使用时可以从不同方面找到共同之处的话, 那就是,它指的是一种广泛的情绪,而不是一种共同的教条———即一种认为人类可以而且必须超越现代的情绪。”
所有理论的背后,都是这个时代的主流认知+情绪。数据也不例外。我们来看看《壮实学数据技术01》中的数据仓库两位大佬之争,就知道人们在反复横跳在秩序和速度中。
所以,我们今天要考虑,元数据在今天的合理性是什么?
在杂乱数据被管理起来之后,是不是在复杂、程式化上需要做做减法?
数据多≠信息多。如何把数据变为信息,是每一个数据人需要持续思考的事情。

全面认识openstack,它到底是什么?包含什么
(1)官方的解释相信大家都已经了解了,不了解也没有关系。现在从常识的角度来给大家解释和说明。
OpenStack是一个云平台管理的项目,它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作。
OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目,OpenStack被公认作为基础设施即服务(简称IaaS)资源的通用前端。
如果这些还不明白,那么从另外的角度给大家介绍:
首先让大家看下面两个图就很简单明了了:
此图为openstack的登录界面
下面是openstack的一个管理界面
从这两个图,相信有一定开发经验,就能看出openstack是什么了。可以说他是一个框架,甚至可以从软件的角度来理解它。如果不明白,就从传统开发来讲解。不知道你是否了解oa,erp等系统,如果不了解可以到网上去找,资料一大把。他和oa,erp有什么不同。很简单就是openstack是用做云计算的一个平台,或则一个解决方案。它是云计算一个重要组成部分。
上面对openstack有了一个感性的认识。
(2)openstack能干什么。
大家都知道阿里云平台,百度云平台,而阿里云平台据传说就是对openstack的二次开发。对于二次开发相信只要接触过软件的都会明白这个概念。不明白的自己网上去查一下。也就是说openstack,可以搭建云平台,什么云平台,公有云,私有云。现在百度在招聘的私有云工程师,应该就是这方面的人才。
(3)openstack自身都包含什么
以下是5个OpenStack的重要构成部分:
l Nova – 计算服务
l Swift – 存储服务
l Glance – 镜像服务
l Keystone – 认证服务
l Horizon – UI服务
图1 OpenStack基本构架
下图展示了Keystone、Dashboard二者与其它OpenStack部分的交互。
下面详细介绍每一个服务:
(一)OpenStack计算设施—-Nova Nova是OpenStack计算的弹性控制器。OpenStack云实例生命期所需的各种动作都将由Nova进行处理和支撑,这就意味着Nova以管理平台的身份登场,负责管理整个云的计算资源、网络、授权及测度。虽然Nova本身并不提供任何虚拟能力,但是它将使用libvirt API与虚拟机的宿主机进行交互。Nova通过Web服务API来对外提供处理接口,而且这些接口与Amazon的Web服务接口是兼容的。
功能及特点
l 实例生命周期管理
l 计算资源管理
l 网络与授权管理
l 基于REST的API
l 异步连续通信
l 支持各种宿主:Xen、XenServer/XCP、KVM、UML、VMware vSphere及Hyper-V
OpenStack计算部件
l Nova弹性云包含以下主要部分:
l API Server(nova-api)
l 消息队列(rabbit-mq server)
l 运算工作站(nova-compute)
l 网络控制器(nova-network)
l 卷管理(nova-volume)
l 调度器(nova-scheduler)
API服务器(nova-api)
API服务器提供了云设施与外界交互的接口,它是外界用户对云实施管理的唯一通道。通过使用web服务来调用各种EC2的API,接着API服务器便通过消息队列把请求送达至云内目标设施进行处理。作为对EC2-api的替代,用户也可以使用OpenStack的原生API,我们把它叫做“OpenStack API”。
消息队列(Rabbit MQ Server)
OpenStack内部在遵循AMQP(高级消息队列协议)的基础上采用消息队列进行通信。Nova对请求应答进行异步调用,当请求接收后便则立即触发一个回调。由于使用了异步通信,不会有用户的动作被长置于等待状态。例如,启动一个实例或上传一份镜像的过程较为耗时,API调用就将等待返回结果而不影响其它操作,在此异步通信起到了很大作用,使整个系统变得更加高效。
运算工作站(nova-compute)
运算工作站的主要任务是管理实例的整个生命周期。他们通过消息队列接收请求并执行,从而对实例进行各种操作。在典型实际生产环境下,会架设许多运算工作站,根据调度算法,一个实例可以在可用的任意一台运算工作站上部署。
网络控制器(nova-network)
网络控制器处理主机的网络配置,例如IP地址分配,配置项目VLAN,设定安全群组以及为计算节点配置网络。
卷工作站(nova-volume)
卷工作站管理基于LVM的实例卷,它能够为一个实例创建、删除、附加卷,也可以从一个实例中分离卷。卷管理为何如此重要?因为它提供了一种保持实例持续存储的手段,比如当结束一个实例后,根分区如果是非持续化的,那么对其的任何改变都将丢失。可是,如果从一个实例中将卷分离出来,或者为这个实例附加上卷的话,即使实例被关闭,数据仍然保存其中。这些数据可以通过将卷附加到原实例或其他实例的方式而重新访问。
因此,为了日后访问,重要数据务必要写入卷中。这种应用对于数据服务器实例的存储而言,尤为重要。
调度器(nova-scheduler)
调度器负责把nova-API调用送达给目标。调度器以名为“nova-schedule”的守护进程方式运行,并根据调度算法从可用资源池中恰当地选择运算服务器。有很多因素都可以影响调度结果,比如负载、内存、子节点的远近、CPU架构等等。强大的是nova调度器采用的是可插入式架构。
目前nova调度器使用了几种基本的调度算法:
随机化:主机随机选择可用节点;
可用化:与随机相似,只是随机选择的范围被指定;
简单化:应用这种方式,主机选择负载最小者来运行实例。负载数据可以从别处获得,如负载均衡服务器。
(二)OpenStack镜像服务器—-GlanceOpenStack镜像服务器是一套虚拟机镜像发现、注册、检索系统,我们可以将镜像存储到以下任意一种存储中:
本地文件系统(默认)
l OpenStack对象存储
l S3直接存储
l S3对象存储(作为S3访问的中间渠道)
l HTTP(只读)
功能及特点
提供镜像相关服务
Glance构件
l Glance控制器
l Glance注册器
(三)OpenStack存储设施—-Swift
Swift为OpenStack提供一种分布式、持续虚拟对象存储,它类似于Amazon Web Service的S3简单存储服务。Swift具有跨节点百级对象的存储能力。Swift内建冗余和失效备援管理,也能够处理归档和媒体流,特别是对大数据(千兆字节)和大容量(多对象数量)的测度非常高效。
功能及特点
l 海量对象存储
l 大文件(对象)存储
l 数据冗余管理
l 归档能力—–处理大数据集
l 为虚拟机和云应用提供数据容器
l 处理流媒体
l 对象安全存储
l 备份与归档
l 良好的可伸缩性
Swift组件
l Swift账户
l Swift容器
l Swift对象
l Swift代理
l Swift RING
Swift代理服务器
用户都是通过Swift-API与代理服务器进行交互,代理服务器正是接收外界请求的门卫,它检测合法的实体位置并路由它们的请求。
此外,代理服务器也同时处理实体失效而转移时,故障切换的实体重复路由请求。
Swift对象服务器
对象服务器是一种二进制存储,它负责处理本地存储中的对象数据的存储、检索和删除。对象都是文件系统中存放的典型的二进制文件,具有扩展文件属性的元数据(xattr)。
注意:xattr格式被Linux中的ext3/4,XFS,Btrfs,JFS和ReiserFS所支持,但是并没有有效测试证明在XFS,JFS,ReiserFS,Reiser4和ZFS下也同样能运行良好。不过,XFS被认为是当前最好的选择。
Swift容器服务器
容器服务器将列出一个容器中的所有对象,默认对象列表将存储为SQLite文件(译者注:也可以修改为MySQL,安装中就是以MySQL为例)。容器服务器也会统计容器中包含的对象数量及容器的存储空间耗费。
Swift账户服务器
账户服务器与容器服务器类似,将列出容器中的对象。
Ring(索引环)
Ring容器记录着Swift中物理存储对象的位置信息,它是真实物理存储位置的实体名的虚拟映射,类似于查找及定位不同集群的实体真实物理位置的索引服务。这里所谓的实体指账户、容器、对象,它们都拥有属于自己的不同的Rings。
(四)OpenStack认证服务(Keystone)
Keystone为所有的OpenStack组件提供认证和访问策略服务,它依赖自身REST(基于Identity API)系统进行工作,主要对(但不限于)Swift、Glance、Nova等进行认证与授权。事实上,授权通过对动作消息来源者请求的合法性进行鉴定。如下图所示:
Keystone采用两种授权方式,一种基于用户名/密码,另一种基于令牌(Token)。除此之外,Keystone提供以下三种服务:
l 令牌服务:含有授权用户的授权信息
l 目录服务:含有用户合法操作的可用服务列表
l 策略服务:利用Keystone具体指定用户或群组某些访问权限
认证服务组件
服务入口:如Nova、Swift和Glance一样每个OpenStack服务都拥有一个指定的端口和专属的URL,我们称其为入口(endpoints)。
l 区位:在某个数据中心,一个区位具体指定了一处物理位置。在典型的云架构中,如果不是所有的服务都访问分布式数据中心或服务器的话,则也称其为区位。
l 用户:Keystone授权使用者
译者注:代表一个个体,OpenStack以用户的形式来授权服务给它们。用户拥有证书(credentials),且可能分配给一个或多个租户。经过验证后,会为每个单独的租户提供一个特定的令牌。[来源:http://blog.sina.com.cn/s/blog_70064f190100undy.html]
l 服务:总体而言,任何通过Keystone进行连接或管理的组件都被称为服务。举个例子,我们可以称Glance为Keystone的服务。
l 角色:为了维护安全限定,就云内特定用户可执行的操作而言,该用户关联的角色是非常重要的。
译者注:一个角色是应用于某个租户的使用权限集合,以允许某个指定用户访问或使用特定操作。角色是使用权限的逻辑分组,它使得通用的权限可以简单地分组并绑定到与某个指定租户相关的用户。
l 租间:租间指的是具有全部服务入口并配有特定成员角色的一个项目。
译者注:一个租间映射到一个Nova的“project-id”,在对象存储中,一个租间可以有多个容器。根据不同的安装方式,一个租间可以代表一个客户、帐号、组织或项目。
(五)OpenStack管理的Web接口—-Horizon
Horizon是一个用以管理、控制OpenStack服务的Web控制面板,它可以管理实例、镜像、创建密匙对,对实例添加卷、操作Swift容器等。除此之外,用户还可以在控制面板中使用终端(console)或VNC直接访问实例。总之,Horizon具有如下一些特点:
l 实例管理:创建、终止实例,查看终端日志,VNC连接,添加卷等
l 访问与安全管理:创建安全群组,管理密匙对,设置浮动IP等
l 偏好设定:对虚拟硬件模板可以进行不同偏好设定
l 镜像管理:编辑或删除镜像
l 查看服务目录
l 管理用户、配额及项目用途
l 用户管理:创建用户等
l 卷管理:创建卷和快照
l 对象存储处理:创建、删除容器和对象
l 为项目下载环境变量
目前主流的数据治理平台有那些。
目前国内外能称得上数据治理平台的不多,基本上都是主数据管理平台,只不过都改个名字为数据治理平台,真正数据治理的概念可以参考dama的《数据管理知识体系指南》内容。在这个行业,国内厂商主要有四个来源,物资编码管理厂商(2010年前入行,最早也最普及)、PDM厂商(基本是大BOM的概念,较晚)、ERP厂商(最晚,但是也属于编码管理的延续)和其他后续(2015年后)入行的。国外厂商主要来源有三个,客户主数据厂商(sap、orcale、IBM、informatica)、PDM厂商(达索、Stibo)、开源主数据厂商(Talend)。
国内第一家做主数据管理平台的是一家叫中翰软件的公司,2010年发布的自主产权MDM平台,2013年最早开启数据治理概念,并于2014年试水发布了基于静态数据中心管理的数据治理平台,2018年发布了数据管控平台和数据评估监测平台。
如何创建一个大数据平台
所谓的大数据平台不是独立存在的
元数据管理平台开源,比如百度是依赖搜索引擎获得大数据并开展业务的
元数据管理平台开源,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,
元数据管理平台开源他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件
元数据管理平台开源;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去
元数据管理平台开源;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。
元数据管理框架如何制定,方法都在这!
元数据管理计划实施数量将持续增长到2021年以后。根据DATAVERSITY®数据管理趋势报告,有84%的业务受访者已经实施
元数据管理平台开源了元数据管理计划或已经开始制定计划。一家公司在元数据管理方面的成功取决于实施前是否依托于一个有用的元数据管理框架。
处理好元数据对于公司而言,在于遵守数据法规,提高数据质量,探索机器学习以及更好地使用数据。但是元数据管理超越技术,而主要依赖支持它的人员和政策。
一、什么是元数据管理框架?
元数据管理框架描述
元数据管理平台开源了一种使数据和元数据资产更易于访问和用于实现业务目标的组织方法。它根据组织的需求,动员并扩展了作为元数据管理基础的现有资源。
元数据管理框架发生在公司基础架构级别和运营级别。在更高层次上,元数据管理框架是伊恩·罗兰兹(Ian Rowlands)DAMA芝加哥一章中的解释说,需要行政支持和 数据策略制定更高的业务远景。此外,元数据管理框架还指导人员和自动化算法在日常工作中捕获、集成、管理和发布元数据。
从战略和战术角度考虑,元数据管理框架必须涵盖项目内部或与项目内进行交互的任何人。因此,元数据管理框架需要得到数据治理程序。
数据治理将有关元数据的可用性,具有元数据的组织优先级以及何时以及如何交付元数据的信息通知元数据管理框架。作为反馈,元数据管理框架将有关数据合规性、数据可访问性和数据质量的信息告知企业数据治理。将元数据管理和数据治理基础视为串联工作并提供数据解释。
二、选择元数据管理框架之前要考虑的因素
在创建任何元数据管理框架之前,请考虑以下事项
元数据管理平台开源:
获得元数据管理框架基准
元数据管理平台开源:即使组织中不存在正式的元数据管理框架,隐性的也存在。技术文件映射数据架构,经验丰富的业务分析师之外的人可以理解报告数据,而数据输入过程则提供了有关组织数据及其元数据管理框架片段的上下文。
获得有关人员,流程和技术已经存在以及它们如何通知组织的元数据管理框架的基准是很有意义的。使用“合格且知识渊博的数据专业l(和其他熟练的人才)来管理和解释“数据就绪性评估”以及“数据成熟度”模型,则提供了良好的元数据管理框架起点。进而,公司可以得到改善元数据管理框架的具体建议。
清楚元数据管理框架将实现的目标:清楚为什么组织需要管理元数据和实现元数据管理框架。元数据管理有助于降低培训成本,在整个数据系统中更好地使用数据并简化通信,但并不能解决所有数据问题。
如果组织优先于客户体验或开发产品和服务而不是数据共享和数据发现,那么与其他选择相比,元数据管理框架可能不是最佳解决方案。鉴于任何有用的数据管理框架都倾向于具有昂贵的设置,因此组织首先需要认真研究为什么要实施元数据管理框架。
提高集体数据素养:使用元数据需要已同步组织定义者,生产者和用户之间的协作和可重复的动作。认识到这类人存在于不同的组织部门中,并且有各种各样的跨功能技能。有些人具有很高的技术和分析能力,而另一些人则具有较软的技能。
不同的公司子集团可能会从非常不同的角度考虑并应用任何元数据管理框架。一个人的定义可能与另一个人的定义不同。
集体数据素养通过了解如何解释,交流和使用元数据更好地掌握公司数据资产,帮助利益相关者理解元数据管理框架。通过元数据进行规划,以全面了解业务需求,指导人们为什么以及如何使用任何元数据来完成工作或实现目标。
利用已经存在的元数据管理框架片段:在花钱购买工具和资源以建立新的元数据管理框架之前,请使用组织中已经存在的元数据管理框架来快速获胜并展示其价值。让知道如何解释客户报告含义的人记录该知识。更新现有的技术架构图,以包含更健壮的元数据,例如数据字典。
另外,请考虑有关构建或改进元数据管理框架的现有标准和实践。例如,国际统计分类由世界卫生组织(WHO)批准的《疾病分类》为临床医生,研究人员和医疗帐单人员定义了疾病和健康问题。如果与业务相关,请利用现有的权威元数据源。
三、总结
元数据管理框架不仅仅是技术解决方案。它描述了管理元数据,动员人员,技术和实践的方法和愿景。而且,元数据管理框架与数据治理紧密地交织在一起。做好元数据管理需要在整个组织中建立牢固的元数据管理框架基础。
四、元数据管理工具介绍
亿信华辰元数据管理平台(EsPowerMeta)提供了完善的元模型和元数据维护功能,采用多种方式简化元数据维护的复杂性。系统支持元数据的自动获取和时间调度管理,支持手工创建和变更元数据,并配合版本管理,能完整存储元数据整个生命周期动态和变化,方便用户跟踪业务运作的历史数据。亿信华辰元数据管理平台应用案例:
佛山某区政务服务数据管理局元数据管理平台
建设内容:
政务服务数据管理局基于区内各政府部门的数据进行汇总和治理,面向各部门提供统一的数据服务和应用,实现“用数据决策、用数据监管、用数据创业”的数据统筹发展运行机制。本项目通过元数据管理平台,梳理各类数据来源,实现卫计委、工商局、流管局等各政府部门的元数据自动采集,理清现有的数据流转流程和数据架构,并基于其构建一套新的数据架构,同时提供数据血缘分析、影响分析等,最后形成全区的政务数据地图。
项目价值:
帮助数据管理局确定数据来源和数据架构,为后续数据标准建设,数据质量管理打下坚实的基础,并为政务资源目录、自主填报系统、教育无纸化等应用提供支撑。
drupal 是什么?
Drupal 是一个开源的内容管理系统(CMS)平台,用于构造提供多种功能和服务的动态网站,这些功能包括用户管理(User Administration)、发布工作流(Publishing Workflow)、讨论、新闻聚合(News Aggregation)、元数据(Metadata)操作和用于内容共享的XML发布。它综合了强大并可自由配置的功能,能支持从个人博客(Personal Weblog)到大型社区驱动(Community-Driven)的网站等各种不同应用的网站项目。
它有以下优点
+ 搜索引擎友好的URL
+ Drupal有一个优秀的模块化结构,提供了许多模块,包括短消息、个性化书签、网站管理、Blog、日记、电子商务、电子出版、留言簿、Job、网上电影院、论坛、投票等模块。Drupal模块的下载、安装、定制非常方便
+ Drupal提供了强大的个性化环境,每个用户可以网站内容和表现形式进行个性化设置
+ Drupal提供了基于角色的权限系统,没有必要对每个用户进行授权,只需要对角色进行授权
+ Drupal提供的站内搜索系统能对站内的所有内容进行索引和搜索
+ Drupal的模板系统将内容和表现分离,可以很方便地控制网站的外观
+ Drupal提供内建的新闻聚合工具
+ 提供完善的站点管理和分析工具
+ Drupal的Caching机制能有效减少数据库查询次数,从而提高站点性能,降低服务器负荷
你可以到opensource.com去试用drupal的demo版。
关于元数据管理平台开源和关于元数据管理平台的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
元数据管理平台开源的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于关于元数据管理平台、元数据管理平台开源的信息别忘了在本站进行查找喔。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
暂时没有评论,来抢沙发吧~