c语言sscanf函数的用法是什么
284
2022-11-18
离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾
原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨 03 期直播回顾
一、离线数仓建设背景
但企业在数字化转型过程中并非一帆风顺,还面临着许多问题:
● 数据生产效率低
企业内部数据孤岛现象比较严重,不同部门自行搭建数据仓库,数据重复开发、难以共享,跨部门的数据需求响应周期长。
● 计算存储成本高
数据量增长后计算和存储的资源消耗也越来越大,此时资源利用不合理导致的数据延迟等问题也愈发突出。
● 数据质量问题频繁发生
因开发人员水平参差不齐,数据研发规范不统一等原因导致的质量问题频发且溯源困难。
● 数据安全难以保障
因此在离线数仓数字化转型过程中,我们需要实现以下目标:
● 提升数据生成效率
● 提升数据质量
● 降低计算存储成本
● 保障数据安全
二、离线数仓建设方法论
1、业务调研
2、技术选型
3、数仓域划分
4、逻辑建模
5、物理建模
三、离线开发实施流程
● 第一步:数据集成(多源异构数据双向读写)
流程中的第一步数据集成,本质上是把来自一些数据库的数据经过数据的解析、转换后写入到相同或者异构的数据库这样一个过程,我们需要重点关注:
1、数据读写性能,关注工具是否能满足数据同步要求的速率;
2、异常恢复,当同步任务出现各种原因的异常中断时,能否从断点处继续进行数据读写,而不必每次出现异常都全部重新开始;
3、同步方式,关注同步工具能否支持全量、增量、批量的同步方式;
● 第二步:数据开发
1、SQL 数据加工
2、调度配置:编排任务有序按需执行
● 第三步:任务发布
完成代码开发调试和调度配置后,我们就可以把数据开发任务从开发环境发布,也就是拷贝到生产环境中,由生产环境任务周期运行产生的数据就可以给业务方使用了。
一般数据开发会有三种环境模式。
**1、单项目模式,** 也就是开发测试都在一个项目内完成,经过测试的任务直接跑生产数据,这种模式开发流程短,需求响应快,适合对数据稳定性和要求不高的场景,但大部分情况下我们不建议这么操作;
**2、双项目模式,** 数据开发在开发项目中完成任务开发和测试,通过运维发布到生产环境中运行,开发项目和生产项目存在数据隔离,这种模式对数据安全比较有保障;
● 第四步:运维监控
● 第五步:数据安全
以上就是离线开发建设落地的全过程,那么是否有一款产品能满足上述需求呢?袋鼠云自研的数栈离线开发平台就完美符合这个情景。
同时产品具备以下特点:
● 一站式可视化智能数据开发
一个平台覆盖完整数据开发流程,减少组件运维成本与流程衔接操作,让用户专注于业务本身。全流程可视化操作附带语法提示,智能调度与监控等多种辅助功能,减少上手成本,让更多用户参与数据使用。
● 多集群多引擎弹性兼容
支持输出自研 Hadoop 集群,同时可对接 CDH、HDP、TDH 等多集群及 Oracle、TiDB 等多引擎;节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。
● 全流程多维安全保障
多租户多项目组织结构实现数据权限隔离的同时支持灵活的申请授权;多角色内置权限点实现功能隔离;数据权限全流程校验,关键操作细粒度审计,最大限度减少生产安全事故。
四、离线数仓建设案例
接下来我们分享两个使用数栈离线开发平台完成数仓建设的实际案例,让大家切实感受产品给客户带来的实际价值。
● 某银行客户
● 某高校客户
袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~