云数据平台开发方案设计(云数据库开发)

网友投稿 217 2023-02-20

本篇文章给大家谈谈云数据平台开发方案设计,以及云数据库开发对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享云数据平台开发方案设计的知识,其中也会对云数据库开发进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

889页38万字智慧政务大数据云平台建设方案2022年

XXX省信息中心通过近几年的信息化建设,采用自建及购买服务的方式,建设了以下省级政务云平台,承载省级政务应用:

目前共有50台服务器,其中44台使用VMware平台,承载省信大部分业务系统(网办等)。6台物理主机承载统战部和办公厅的两个系统。

使用华为设备,搭建阿里云,由阿里的数梦运维团队维护,省信息中心租用服务。

灾备云计划建设200物理核CPU,1T内存,50T存储,500T备份容量,实际建设224物理核CPU,3.2T内存,60T存储,742T备份容量,并开通2条万兆到省信机房的专线,一条GE互联网专线,分配一个C类公网IP地址段。

XXX省电子政务云项目采用阿里云飞天云平台提供计算能力和存储资源,根据2017年6月1日第三期的要求交付使用的资总量为4000物理核、内存45000 GB,FC-SAN 400 TB、IP-SAN 500 TB、分布式存储600 TB、虚拟带库300 TB、磁盘备份300 TB)。划分为政务外网区、互网区共两个资源池,满足不同的业务场景求。

通过在互联网和政务外网搭建政务云实验平台,提供IaaS 、PaaS和大数据服务等3个方面的有关服务,测试云平台的功能特性、安全性、兼容性等,同时可以使得省信息中心熟悉云平台的建、用、管等方面有关情况,主要包括云主机、云存储,云负载均衡、云安全等IaaS服务,云中间件、云数据库等系统软件服务(含高并发、高可用等要求)等PaaS服务以及大数据处理、算法建模、数据开发平台等大数据服务。同时协助将XXX省网上办事大厅、信息资源共享平台迁移到政务云实验平台,推进以云计算平台为基础进行系统整合,对网上办事大厅有关数据进行示范分析运用。

未来云数据中心要怎样的网络虚拟化解决方案机器学习与数据挖掘

每次谈起虚拟化或云计算云数据平台开发方案设计,管理员都会不约而同云数据平台开发方案设计的抱怨:"数据中心网络赶不上云计算发展云数据平台开发方案设计的步伐"。数据中心计算和存储能力在过去十年里取得了巨大提
云数据平台开发方案设计,而网络还在采用过去的架构方式,并没有跟上这种演进步伐。随着云计算和移动互联网的加速发展,企业对大幅提高数据中心能力的需求也越来越强烈。"
为什么云数据平台开发方案设计我们需要网络虚拟化
 
 传统的三层体系结构正在大数据和云计算的新世界之下崩溃,大二层技术逐渐流行。数据中心内的硬件设备被虚拟化后,可以进一步地逻辑池化,并且逻辑资源池
可以跨多个数据中心,在逻辑资源池上提供虚拟的数据中心给用户使用,从而将离散、分层、异构的多个数据中心联结成新的云数据中心。从这个角度来看,网络的
虚拟化变得绝对必要,以提供一种弹性和可扩展的工作负载的引擎,而不是单独管理离散的物理元件之间的连接。
从本质上讲,网络虚拟化是服务器虚拟化自然的和必要的进化。它允许整个数据中心作为一个类似于计算和存储资源一样进行管理,能够满足动态应用程序工作的负载需求。
什么样的网络虚拟化才是适合于未来的云计算数据中心?
sdn的提出,提供了另外一种方式来解决问题的可能。然而sdn只解决了其中一部分问题,并没有解决现网存在的所有问题:
问题1:功能灵活扩展:要实现网络功能的软件定义,从设备基础架构就要灵活可编程,而功能灵活扩展需要一个开放和灵活扩展的controller平台架构。
问题2:平滑演进:任何客户,不可能完全抛弃现有网络,去建一个新的网络。下一代网络必须能够在现网直接部署,平滑过渡,才可以生存下去。这就要求controller必须具备开放的南北向接口,以便适应于传统的网络。
对于未来的云计算数据中心,网络虚拟化方案需要适应计算和存储虚拟化的浪潮,快速的实现云计算业务的发放,以及能够满足动态的应用程序工作负载的需求;同时需要帮助管理员更简单的管理物理网络和虚拟网络,实现网络可视化。
开放性同样是完美网络虚拟化的一个衡量标准,只有提供丰富的南北向接口和开放的api,并能够满足业界主流云平台对接需求,才能够满足云计算业务日新月异的发展,同时开放性也意味着能够开发不同的插件以便适配现有的网络,从而实现网络的平滑演进。
华为agilecontroller如何打造面向未来的网络虚拟化解决方案
敏捷网络是华为公司面向企业市场发布的下一代网络解决方案。它基于sdn思想加三大架构创新,让网络能够快速、灵活地为业务服务,让企业获得领先四倍的业务创新速度,帮助企业在激烈的竞争中获得先机。
敏捷网络控制器agilecontroller,智慧的数据中心大脑
华为敏捷控制器(agilecontroller),旨在为客户构筑简单、高效、开放的云数据中心网络,云网融合,支撑企业云业务快速发展,让数据中心网络更敏捷地为云业务服务。
第一:业务高效,实现自动地网络资源快速发放
在云计算中,存储和虚拟机已经自动化的实现了按需申请,华为agilecontroller能够实现网络自愿的自动化发放,申请网络资源像申请虚拟机一样方便,高效的网络自动化从而让云计算业务更快上线,大大减小了业务上线的周期。
第二:运维简单,让虚拟与物理网络协同管控
华为agilecontroller能够实现物理网络和虚拟网络的协同管控,支持物理资源和虚拟资源(物理网络、虚拟机、虚拟交换机、分布式虚拟交换机等)统一管理;通过网络可视化让管理更简单,极大的降低了管理员的管理难度。
 
 在数据中心网络中,还有一个重要问题就是虚拟机迁移问题,agilecontroller能够实现网络策略自动适应高速迁移,与业界其他虚拟机网络策略
迁移方案不同的是:agilecontroller通过高速radius接口下发网络策略,使得网络策略部署速度大幅提升,达到业界10-20倍,可满足
数据中心海量虚拟机的突发迁移需求;结合华为丰富的大二层网络解决方案(trill/evn等),vmware虚拟机可以在数据中心内以及跨数据中心间任
意迁移,云业务部署更加灵活。
第三:开放,可与主流云平台对接
敏捷网络是从硬件定义网络,到软件定义网络,再到全可
编程的系统。华为agilecontroller提供丰富的南北向接口,开放api,实现转发面与控制面的可编程,可与客户现有设备与业务系统进行对接,
提升端到端运维效率,加快新业务上线速度,营造企业快速创新环境。
业界云平台众多,主流云平台有
huaweifusionsphere、vmwarevcac、openstack等等,华为agilecontroller均支持与其对接,致力于打造
一个弹性、开放平台,集成各个领域的优秀实践,让用户可根据业务需要灵活定义网络,做到即需即用。
我们毫不怀疑,数据中心的发展势头迅
猛。基础架构如何支持这种增长呢?虚拟化仅仅是其中的一部分。未来网络可能还需要更多的特征。在诸多的特征中,如何选择构建自己的网络呢?目前来看,华为
的敏捷网络,即吸取了sdn的精华,同时又考虑了现有网络的平滑演进,agilecontroller的简单、高效和开放,为成功构建未来的网络奠定了坚
实的基础。
云计算让网络应用变得精彩,让应用创新变得更容易;网络是云计算的基石,没有网络就没有云计算,云计算的发展对网络提出了更高的要求。
 
 敏捷控制器agilecontroller应运而生,它的出现简化了客户的云平台对设备的操作难度,现在有了敏捷控制器agilecontroller
之后,全自动的中间件可以协助用户对设备进行管理。同时华为敏捷控制器是一个开放的平台,将把敏捷控制器的南北向接口开放,从而给行业客户一个开放的自定
义空间,与合作伙伴一起构建起敏捷商业的实践,让他们更聚集在业务的变革和转型上,也让ict的云端融合管理真正实现,大幅度提升了云计算的部署和管理效
率,让物理网络和计算存储资源一样,成为云的一部分,网络和计算相互协同,相互可视,让云计算变得简单。

大数据架构师岗位的主要职责概述

大数据架构师岗位的主要职责概述 篇1

职责:

1、负责大数据平台及BI系统框架设计、规划、技术选型云数据平台开发方案设计,架构设计并完成系统基础服务的开发;

2、负责海量埋点规则、SDK标准化、埋点数据采集、处理及存储,业务数据分布存储、流式/实时计算等应用层架构搭建及核心代码实现;

3、开发大数据平台的核心代码,项目敏捷开发流程管理,完成系统调试、集成与实施,对每个项目周期技术难题的解决,保证大数据产品的上线运行;

4、负责大数据平台的架构优化,代码评审,并根据业务需求持续优化数据架构,保证产品的可靠性、稳定性;

5、指导开发人员完成数据模型规划建设,分析模型构建及分析呈现,分享技术经验;

6、有效制定各种突发性研发技术故障的应对预案,有清晰的隐患意识;

7、深入研究大数据相关技术和产品,跟进业界先进技术;

任职要求

1、统计学、应用数学或计算机相关专业大学本科以上学历;

2、熟悉互联网移动端埋点方法(点击和浏览等行为埋点),无埋点方案等,有埋点SDK独立开发经验者优选;

3、熟悉Hadoop,MR/MapReduce,Hdfs,Hbase,Redis,Storm,Python,zookeeper,kafka,flinkHadoop,hive,mahout,flume,ElasticSearch,KafkaPython等,具备实际项目设计及开发经验;

4、熟悉数据采集、数据清洗、分析和建模工作相关技术细节及流程

5、熟悉Liunx/Unix操作系统,能熟练使用shell/perl等脚本语言,熟练掌握java/python/go/C++中一种或多种编程语言

6、具备一定的算法能力,云数据平台开发方案设计了解机器学习/深度学习算法工具使用,有主流大数据计算组件开发和使用经验者优先

7、熟悉大数据可视化工具Tableau/echarts

8、具有较强的执行力,高度的责任感、很强的学习、沟通能力,能够在高压下高效工作;

大数据架构师岗位的主要职责概述 篇2

职责:

根据大数据业务需求,设计大数据方案及架构,实现相关功能;

搭建和维护大数据集群,保证集群规模持续、稳定、高效平稳运行;

负责大数据业务的设计和指导具体开发工作;

负责公司产品研发过程中的数据及存储设计;

针对数据分析工作,能够完成和指导负责业务数据建模。

职位要求:

计算机、自动化或相关专业(如统计学、数学)本科以上学历,3年以上大数据处理相关工作经验;

精通大数据主流框架(如Hadoop、hive、Spark等);

熟悉MySQL、NoSQL(MongoDB、Redis)等主流数据库,以及rabbit MQ等队列技术;

熟悉hadoop/spark生态的原理、特性且有实战开发经验;

熟悉常用的数据挖掘算法优先。

大数据架构师岗位的主要职责概述 篇3

职责:

1、大数据平台架构规划与设计;

2、负责大数据平台技术框架的选型与技术难点攻关;

3、能够独立进行行业大数据应用的整体技术框架、业务框架和系统架构设计和调优等工作,根据系统的业务需求,能够指导开发团队完成实施工作;

4、负责数据基础架构和数据处理体系的升级和优化,不断提升系统的稳定性和效率,为相关的业务提供大数据底层平台的支持和保证;

5、培养和建立大数据团队,对团队进行技术指导。

任职要求:

1、计算机相关专业的背景专业一类院校毕业本科、硕士学位,8年(硕士5年)以上工作经验(至少拥有3年以上大数据项目或产品架构经验);

2、精通Java,J2EE相关技术,精通常见开源框架的架构,精通关系数据库系统(Oracle MySQL等)和noSQL数据存储系统的原理和架构;

3、精通SQL和Mapreduce、Spark处理方法;

4、精通大数据系统架构,熟悉业界数据仓库建模方法及新的建模方法的发展,有DW,BI架构体系的专项建设经验;

5、对大数据体系有深入认识,熟悉Kafka、Hadoop、Hive、HBase、Spark、Storm、greenplum、ES、Redis等大数据技术,并能设计相关数据模型;

6、很强的学习、分析和解决问题能力,可以迅速掌握业务逻辑并转化为技术方案,能独立撰写项目解决方案、项目技术文档;

7、具有较强的内外沟通能力,良好的团队意识和协作精神;

8、机器学习技术、数据挖掘、人工智能经验丰富者优先考虑;

9、具有能源电力行业工作经验者优先。

大数据架构师岗位的主要职责概述 篇4

职责:

1.参与公司数据平台系统规划和架构工作,主导系统的架构设计和项目实施,确保项目质量和关键性能指标达成;

2.统筹和推进制造工厂内部数据系统的构建,搭建不同来源数据之间的逻辑关系,能够为公司运营诊断、运营效率提升提供数据支持;

3.负责数据系统需求对接、各信息化系统数据对接、软件供应商管理工作

5.根据现状制定总体的数据治理方案及数据体系建立,包括数据采集、接入、分类、开发标准和规范,制定全链路数据治理方案;深入挖掘公司数据业务,超强的数据业务感知力,挖掘数据价值,推动数据变现场景的落地,为决策及业务赋能;

6.定义不同的数据应用场景,推动公司的数据可视化工作,提升公司数据分析效率和数据价值转化。

任职要求:

1.本科以上学历,8年以上软件行业从业经验,5年以上大数据架构设计经验,熟悉BI平台、大数据系统相关技术架构及技术标准;

2.熟悉数据仓库、熟悉数据集市,了解数据挖掘、数据抽取、数据清洗、数据建模相关技术;

3.熟悉大数据相关技术:Hadoop、Hive、Hbase、Storm、Flink、Spark、Kafka、RabbitMQ;

4.熟悉制造企业信息化系统及相关数据库技术;

5.具备大数据平台、计算存储平台、可视化开发平台经验,具有制造企业大数据系统项目开发或实施经验优先;

6.对数据敏感,具备优秀的业务需求分析和报告展示能力,具备制造企业数据分析和数据洞察、大数据系统的架构设计能力,了解主流的报表工具或新兴的前端报表工具;

7.有较强的沟通和组织协调能力,具备结果导向思维,有相关项目管理经验优先。

大数据架构师岗位的.主要职责概述 篇5

职责:

1.负责产品级业务系统架构(如业务数据对象识别,数据实体、数据属性分析,数据标准、端到端数据流等)的设计与优化。协助推动跨领域重大数据问题的分析、定位、解决方案设计,从架构设计上保障系统高性能、高可用性、高安全性、高时效性、分布式扩展性,并对系统质量负责。

2.负责云数据平台的架构设计和数据处理体系的优化,推动云数据平台建设和持续升级,并制定云数据平台调用约束和规范。

3.结合行业应用的需求负责数据流各环节上的方案选型,主导云数据平台建设,参与核心代码编写、审查;数据的统计逻辑回归算法、实时交互分析;数据可视化方案等等的选型、部署、集成融合等等。

4.对云数据平台的关注业内技术动态,持续推动平台技术架构升级,以满足公司不同阶段的数据需求。

任职要求:

1.熟悉云计算基础平台,包括Linux(Ubuntu/CentOS)和KVM、OpenStack/K8S等基础环境,熟悉控制、计算、存储和网络;

2.掌握大型分布式系统的技术栈,如:CDN、负载均衡、服务化/异步化、分布式缓存、NoSQL、数据库垂直及水平扩容;熟悉大数据应用端到端的相关高性能产品。

3.精通Java,Python,Shell编程语言,精通SQL、NoSQL等数据库增删改查的操作优化;

4.PB级别实战数据平台和生产环境的实施、开发和管理经验;

5.熟悉Docker等容器的编排封装,熟悉微服务的开发和日常调度;

6.计算机、软件、电子信息及通信等相关专业本科以上学历,5年以上软件工程开发经验,2年以上大数据架构师工作经验。

大数据架构师岗位的主要职责概述 篇6

职责描述:

1、负责集团大数据资产库的技术架构、核心设计方案,并推动落地;

2、带领大数据技术团队实现各项数据接入、数据挖掘分析及数据可视化;

3、新技术预研,解决团队技术难题。

任职要求:

1、在技术领域有5年以上相关经验,3年以上的架构设计或产品经理经验;

2、具有2年以上大数据产品和数据分析相关项目经验;

3、精通大数据分布式系统(hadoop、spark、hive等)的架构原理、技术设计;精通linux系统;精通一门主流编程语言,java优先。

大数据架构师岗位的主要职责概述 篇7

岗位职责:

1、基于公司大数据基础和数据资产积累,负责大数据应用整体技术架构的设计、优化,建设大数据能力开放平台;负责大数据应用产品的架构设计、技术把控工作。

2、负责制定大数据应用系统的数据安全管控体系和数据使用规范。

3、作为大数据技术方案到产品实现的技术负责人,负责关键技术点攻坚工作,负责内部技术推广、培训及知识转移工作。

4、负责大数据系统研发项目任务规划、整体进度、风险把控,有效协同团队成员并组织跨团队技术协作,保证项目质量与进度。

5、负责提升产品技术团队的技术影响力,针对新人、普通开发人员进行有效辅导,帮助其快速成长。

任职资格:

1、计算机、数学或相关专业本科以上学历,5—20xx年工作经验,具有大型系统的技术架构应用架构数据架构相关的实践工作经验。

2、有分布式系统分析及架构设计经验,熟悉基于计算集群的软件系统架构和实施经验。

3、掌握Hadoop/Spark/Storm生态圈的主流技术及产品,深入了解Hadoop/Spark/Storm生态圈产品的工作原理及应用场景。

4、掌握Mysql/Oracle等常用关系型数据库,能够对SQL进行优化。

5、熟悉分布式系统基础设施中常用的技术,如缓存(Varnish、Memcache、Redis)、消息中间件(Rabbit MQ、Active MQ、Kafka、NSQ)等;有实践经验者优先。

6、熟悉Linux,Java基础扎实,至少3—5年以上Java应用开发经验,熟悉常用的设计模式和开源框架。

大数据架构师岗位的主要职责概述 篇8

岗位职责:

1、负责公司大数据平台架构的技术选型和技术难点攻关工作;

2、依据行业数据现状和客户需求,完成行业大数据的特定技术方案设计与撰写;

3、负责研究跟进大数据架构领域新兴技术并在公司内部进行分享;

4、参与公司大数据项目的技术交流、解决方案定制以及项目的招投标工作;

5、参与公司大数据项目前期的架构设计工作;

任职要求:

1、计算机及相关专业本科以上,5年以上数据类项目(数据仓库、商务智能)实施经验,至少2年以上大数据架构设计和开发经验,至少主导过一个大数据平台项目架构设计;

2、精通大数据生态圈的技术,包括但不限于MapReduce、Spark、Hadoop、Kafka、Mongodb、Redis、Flume、Storm、Hbase、Hive,具备数据统计查询性能优化能力。熟悉星环大数据产品线及有过产品项目实施经验者优先;

3、优秀的方案撰写能力,思路清晰,逻辑思维强,能够根据业务需求设计合理的解决方案;

4、精通ORACLE、DB2、mySql等主流关系型数据库,熟悉数据仓库建设思路和数据分层架构思想;

5。熟练掌握java、R、python等1—2门数据挖掘开发语言;

6。熟悉云服务平台及微服务相关架构思想和技术路线,熟悉阿里云或腾讯云产品者优先;

7、有烟草或制造行业大数据解决方案售前经验者优先;

8、能适应售前支持和项目实施需要的短期出差;

大数据架构师岗位的主要职责概述 篇9

岗位职责:

1、负责相关开源系统/组件的性能、稳定性、可靠性等方面的深度优化;

2、负责解决项目上线后生产环境的各种实际问题,保障大数据平台在生产上的安全、平稳运行;

3、推动优化跨部门的业务流程,参与业务部门的技术方案设计、评审、指导;

4、负责技术团队人员培训、人员成长指导。

5、应项目要求本月办公地址在锦江区金石路316号新希望中鼎国际办公,月底项目结束后在总部公司办公

任职要求:

1、熟悉linux、JVM底层原理,能作为技术担当,解决核心技术问题;

2、3年以上大数据平台项目架构或开发经验,对大数据生态技术体系有全面了解,如Yarn、Spark、HBase、Hive、Elasticsearch、Kafka、PrestoDB、Phoenix等;

3、掌握git、maven、gradle、junit等工具和实践,注重文档管理、注重工程规范优先;

4、熟悉Java后台开发体系,具备微服务架构的项目实施经验,有Dubbo/Spring cloud微服务架构设计经验优先;

5、性格开朗、善于沟通,有极强的技术敏感性和自我驱动学习能力,注重团队意识。

大数据架构师岗位的主要职责概述 篇10

职责描述:

1、负责大数据平台框架的规划设计、搭建、优化和运维;

2、负责架构持续优化及系统关键模块的设计开发,协助团队解决开发过程中的技术难题;

3、负责大数据相关新技术的调研,关注大数据技术发展趋势、研究开源技术、将新技术应用到大数据平台,推动数据平台发展;

4、负责数据平台开发规范制定,数据建模及核心框架开发。

任职要求:

1、计算机、数学等专业本科及以上学历;

2、具有5年及以上大数据相关工作经验;

3、具有扎实的大数据和数据仓库的理论功底,负责过大数据平台或数据仓库设计;

4、基于hadoop的大数据体系有深入认识,具备相关产品(hadoop、hive、hbase、spark、storm、 flume、kafka、es等)项目应用研发经验,有hadoop集群搭建和管理经验;

5、熟悉传统数据仓库数据建模,etl架构和开发流程,使用过kettle、talend、informatic等至少一种工具;

6、自驱力强、优秀的团队意识和沟通能力,对新技术有好奇心,学习能力和主动性强,有钻研精神,充满激情,乐于接受挑战;

如何创建一个大数据平台

所谓的大数据平台不是独立存在的,比如百度是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。 关于云数据平台开发方案设计和云数据库开发的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 云数据平台开发方案设计的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于云数据库开发、云数据平台开发方案设计的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:第三方支付平台API接口(怎么调用第三方支付接口)
下一篇:第三方平台上api接口吗(怎么调用第三方api)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~