数据库平台建设(数据库平台建设流程)

网友投稿 283 2023-03-15

本篇文章给大家谈谈数据库平台建设,以及数据库平台建设流程对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享数据库平台建设的知识,其中也会对数据库平台建设流程进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

大数据工程师进行数据平台建设 有哪些方案

【导语】数据平台其实在企业发展数据库平台建设的进程中都是存在的数据库平台建设,在进入到数据爆发式增加的大数据时代数据库平台建设,传统的企业级数据库,在数据管理应用上,并不能完全满意各项需求。就企业自身而言,需求更加契合需求的数据平台建设方案,那么大数据工程师进行数据平台建设,有哪些方案呢?下面就来细细数据库平台建设了解一下吧。

1、敏捷型数据集市

数据集市也是常见的一种方案,底层的数据产品与分析层绑定,使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。数据集市,主要的优势在于对业务数据进行简单的、快速的整合,实现敏捷建模,并且大幅提升数据的处理速度。

2、常规数据仓库

数据仓库的重点,是对数据进行整合,同时也是对业务逻辑的一个梳理。数据仓库虽然也可以打包成SAAS那种Cube一类的东西来提升数据的读取性能,但是数据仓库的作用,更多的是为了解决公司的业务问题。

3、Hadoop分布式系统架构

当然,大规模分布式系统架构,Hadoop依然站在不可代替的关键位置上。雅虎、Facebook、百度、淘宝等国内外大企,最初都是基于Hadoop来展开的。

Hadoop生态体系庞大,企业基于Hadoop所能实现的需求,也不仅限于数据分析,也包括机器学习、数据挖掘、实时系统等。企业搭建大数据系统平台,Hadoop的大数据处理能力、高可靠性、高容错性、开源性以及低成本,都使得它成为首选。

4、MPP(大规模并行处理)架构

进入大数据时代以来,传统的主机计算模式已经不能满足需求了,分布式存储和分布式计算才是王道。大家所熟悉的Hadoop
MapReduce框架以及MPP计算框架,都是基于这一背景产生。

MPP架构的代表产品,就是Greenplum。Greenplum的数据库引擎是基于Postgresql的,并且通过Interconnnect神器实现了对同一个集群中多个Postgresql实例的高效协同和并行计算。

关于大数据工程师进行数据平台建设方案的有关内容,就给大家介绍到这里了,中国社会发展至今,大数据的应用正在逐渐普及,所以未来前景不可估量,希望想从事此行业的人员能够合理选择。

大数据平台建设有哪些步骤以及需要注意的问题

大数据平台的搭建步骤:

1、linux系统安装 
   一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。
2、分布式计算平台/组件安装 
 国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等
使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新操作』。4)因为代码开源,若出bug可自由对源码作修改维护。
3、数据导入
数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。
4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
5、结果可视化及输出API
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引,提供快速列查找。
 
大数据平台搭建中的主要问题
1、稳定性 Stability 
理论上来说,稳定性是分布式系统最大的优势,因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上,配置不合适,也可能成为最大的问题。 
2、可扩展性 Scalability 
如何快速扩展已有大数据平台,在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中,有时需要增减机器来满足新的需求。如何在保留原有功能的情况下,快速扩充平台是实际应用中的常见问题。 

数据库建设

(一)数据准备

1.数据收集

1∶25万遥感地质填图数据包含影像数据和矢量数据两种格式,影像数据主要包括:TM原始影像、SPOT原始影像、SAR原始影像、TM与SPOT融合影像、TM与SAR融合影像、信息增强分类处理后的整幅影像或影像子区;矢量数据主要包括:航磁等值线影像、1∶25万地形图、地质图、航磁解译地质图、遥感解译单元图、遥感解译地质图。现以新疆瓦石峡地区、内蒙古阿龙山地区为例,具体情况如下:

(1)瓦石峡地区

TM卫星影像

SAR卫星影像

航磁等值线(TIF)影像

航磁解译地质图

地质图

遥感解译影像单元图

遥感解译地质图

(2)阿龙山地区

TM卫星影像

SPOT卫星影像

航磁等值线(TIF)影像

地质图

航磁解译地质图

遥感解译地质图

2.数据预处理

1)影像数据处理,主要针对原始影像数据

(1)将TM原始影像、SPOT原始影像、SAR原始影像、航磁等值线(.JPG)数据格式转换为ERDAS的.IMG格式。

(2)对转换后的IMG文件进行投影转换。投影系采用6度分带的横轴墨卡托(Transverse Mercator)投影,投影参数为:

Units:Meters

Scale Factor:1.0

Longitude Of Center:123 00 00

Latitude Of Center:0 00 00

False Easting:500 KM

False Northing:0 KM

Xshift:0

Yshift:0

椭球(spheroid)体采用克拉索夫(Krasovsky)椭球,参数为:

SemiMajor:6378245.0000 Meters

SemiMinor:6356863.0188 Meters

坐标系采用大地坐标,度量单位为米,这样可以在GIS系统中方便的量算特征的长度和面积。

(3)图像坐标纠正

参照地形图选择同名点,对影像数据进行坐标精校正。同名点的选择不少于12个。

2)矢量数据处理

工作主要针对地质图、航磁解译地质图、遥感解译单元图、遥感解译地质图。

(1)数据分层

根据图面特征信息内容和制图要求,每幅矢量图按特征类型划分为点、线、面(区)三个图层。划分的依据是遥感地质解译图件的信息不完全等同于其他地质调查图件,它表现的内容主要是:从影像图中判读出的地层、岩石影像单元及构造界线,但各种地质特征的单位、时代、分类、度量、结构、方向等的描述不是十分具体,因此在属性定义上比较一致,对一个图件不需要产生基于同一特征类型的专题图层,因此按矢量特征类型划分较为合理、简便。

(2)图件扫描矢量化

将地质、影像单元等图件扫描成 TIF影像文件,按照分层要求,将每个图件数字化为点、线、面三个图层文件。处理的图件和产生的矢量图层文件见表3-1至3-7。

表3-1 矢量图层表

表3-2 遥感影像单元图线特征编码结构表

表3-3 遥感影像单元图性特征编码表

表3-4 遥感影像单元图点特征编码结构表

表3-5 遥感影像单元图点特征编码表

表3-6 遥感影像单元图矢量文件属性字段定义表

表3-7 遥感影像单元图矢量文件属性字段使用说明表

数字化后的矢量文件投影变换为6度分带的横轴墨卡托投影,坐标采用地理坐标,转换成ARC/INFO的交换格式E00文件,以便于使用。

(3)数据编辑

数字化后的E00文件在ARC/INFO中转换为Coverage格式。建立拓扑关系,生成属性表,检查特征的正确性。编辑工作包括:

a.面:多边形的闭合,多边形的拼合等。

b.线:冗余线段的删除,平滑曲线等。

c.点:悬挂点、伪节点的删除等。

特征的裁剪,使用图廓对每个图层进行切割,删除超出工作区范围的特征。

(4)投影转换和坐标校正

a.投影转换:采用横轴墨卡托投影,投影参数与影像数据完全一致。

b.坐标校正:由于图纸和扫描过程中的变形,数字化的矢量文件坐标会与实际坐标产生一定的误差,必须进行校正。本课题中使用的图纸纸张质量较差,保存时间长,又经过复制,所以误差产生因素更为复杂,误差比较大。由于这些都是解译图件,表现的内容与影像数据或地形数据基本上是不相关的,因此寻找同名点非常困难。鉴于上述种种原因,只能采用一次多项式,不少于4个坐标参数的校正方法,但校正后的文件不能准确的匹配每个特征。这也是传统手工绘图的缺陷之一,如采用计算机辅助解译、制图则会大大提高数据精度。

(5)地质特征编码

a.线特征:编码采用三位数字码组成。

1∶25万遥感地质填图方法和技术

b.点特征:编码采用三位数字码组成。

1∶25万遥感地质填图方法和技术

c.面特征:由于影像单元图的面特征描述有其特殊之处,有时遵照地层、岩石的分类方法国家标准,但绝大部分是按照影像颜色、纹理等划分和称谓,因此进行分类编码十分困难,有待进一步研究解决。

以上编码方法是在每种特征类型组合最大值和预留一定的扩充余地的基础上编制的,编码方案参照国标:GB958—89区域地质图图例(1∶5万)

(6)属性定义

说明:由于地质代号的组成方式极为复杂,使用了上下角标、希腊字符、拉丁字母等,而这些字符和格式在纯文本的属性字段中是不能完全或准确表达的,因此在录入时对地质代号进行了一些简化。

例如:Pt2xh简化为Pt2xh

简化为An1—3

(二)建立数据库

GIS空间数据库有两种存储形式:一是基于文件索引的传统空间数据库管理体系;二是采用商用关系数据库的解决方案,二者各有千秋。第一种结构是对应用的集成,而数据是松散的,虽不利于数据的集中管理,但对不同系统平台之间共享数据提供了很大方便,特别是数据较少的小型应用系统。这种结构的另外一个可取之处是方案简单,工作量小,不需要数据库方面的专业知识。第二种结构既是应用的集成,也是数据的集成,并且提供所有的RDBMS的数据和安全管理优势,但它需要专用的空间数据引擎,对其他软件使用数据是一个极大的限制,必须进行数据的导入导出和格式转换,并且要求使用者对RDBMS有一定的操作和管理经验。

由于本集成系统采用的是ARC/INFO和ERDAS软件,它们之间只能达到文件方式的数据共享,虽然ARC/INFO 8提供了GeoDataBase这种关系数据库管理模式,实现真正的空间数据集中管理和RDBMS所有的数据管理能力,但为了满足两个软件之间数据的交互处理,本系统采用文件索引形式的数据库。在数据完备的基础上,建库工作需以下两个步骤:

(1)首先创建基于项目的不同格式、不同类型的目录树工作区,把所有数据文件分类保存在这个工作区中,工作区框架以瓦石峡幅数据为例(图3-5)。

(2)然后在 ARC/INFO 的 ARCMAP中新建一个 MAP DOCUMENT(以下简称为文档),添加所有数据文件到文档中。文档中每个数据文件都被称为一个 LAYER(以下简称为层),每个矢量层可以有它自己的环境,文档可以保存环境的变化。使用者只需打开这个文档即可调用项目所有的数据文件,并且恢复到上一次工作时的状态。

图3-5 数据分层结构图

在MAP DOCUMENT这种集成的数据环境下,使用者可以采用ARC/INFO 8的ARCEDITOR、ARCMAP参照影像图层进行矢量化的解译工作,对已形成的图件直接进行图形和属性编辑,进行辅助解译的空间分析,对各种图件进行叠加比较,使用文字标签或属性字段标注特征,按照分类符号化特征,制作专题图,打印输出图件报表等,实现一系列与遥感解译有关的功能和操作。

由于ARC/INFO提供的地质图式图例和符号不能满足我国的地质成图要求,因此制图软件采用地质行业较为通用的MAPGIS。通过ARCTOOLS工具将最终的解译成果矢量地质图转换为ARC/INFO的标准交换格式E00,提交给MAPGIS形成绘图文件,出版印刷。具体的实施方案和技术流程见“成果图件制作方法研究”一节。

关于数据库平台建设和数据库平台建设流程的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 数据库平台建设的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据库平台建设流程、数据库平台建设的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:一文解开java中字符串编码的小秘密(干货)
下一篇:分析SpringBoot的启动原理
相关文章

 发表评论

暂时没有评论,来抢沙发吧~