c语言sscanf函数的用法是什么
291
2022-11-18
大数据导论
大数据导论
大数据时代最早提出来大数据时代到来的是全球知名咨询公司“麦肯锡”,其称为:“数据,已经到当今每一个行业和业务职能领域,称其重要的生产因素,人们对于海量数据挖掘和运用,预示着新一波生产效率和消费者盈余浪潮的到来。”
大数据(big data)指无法再一定事件范围内用常规软件工具进行捕捉、管理、处理的数据集合,需要新的数据处理模式才能更具有强有力的决策力、洞察力、发现力。并且具备流程优化的海量、高增长率、多样化的信息资产。
数据概念
事实或观察的结果 对客观事物的逻辑归纳 用于表示客观事物且未加工的原始素材
数据单位
1Byte = 8bit
1K(千)=1024Byte
1MB(兆)=1024K
1G(吉)=1024M
1T(太)=1024G
1P(拍)=1024T
1E(艾)=1024P
1Z(泽)=1024E
1Y(尧)=1024Z
1B(布)=1024Y
1N(诺)=1024B
1D(刀)=1024N
大数据特征(5V)
Volume(体积)
数据体量大 采集数据量大 计算数据量大 TB、PB级别起步
Variety(多样)
种类来源多样化 种类:结构化、半结构化、非结构化 来源:日志文本、图片、音频、视频
Value(价值)
低价值密度 信息海量且价值密度低 深度复杂的数据挖掘分析需要使用机器学习参与
Velocity(速度快)
数据增长速度快 获取数据速度快 数据处理速度快
Veracity(质量)
数据准确性 数据可信赖程度
应用场景
1、电商领域
精准广告位、个性化推荐、大数据杀熟
2、传媒领域
精准营销、猜你喜欢、交换推荐
3、金融领域
信用评估、风险控制、客户细分、精细化营销
4、交通领域
拥堵预测、智能红绿灯、导航最优规划
5、电信领域
基站选址优化、舆情监控、客户用户画像
6、安防领域
犯罪预防、天网监控
7、医疗领域
智慧医疗、疾病预防、病源追踪
分布式技术
科学技术的发展推动下应用和系统架构的变迁
单机单一架构迈向多机分布式架构
面临问题
当数据大爆炸,海量数据处理场景面临问题:
1、如何存储
单机存储有瓶颈,使用多台机器分布式存储
2、如何计算
单机计算能力有限,使用多台机器分布式计算
分布式系统
分布式系统是一个硬件或软件组合分布再不同网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统,一群互相独立计算机器集合共同对外提供服务,对用户来说,就是一台计算机在提供服务。
分布式(distributed)
1、分布式
多台机器,在每台机器上部署不同组件
集群(cluster)
1、集群
多台机器,在每台集群部署相同组件
共同点:多台机器
负载均衡(load balance)
将负载(工作任务)进行平衡、分摊到多个操作单元上进行运算解决单个无法处理所有的任务,多个一起处理问题。
故障转移(fail over)
当活动的服务器或应用程序意外终止时,快速启用冗余或被你有的服务器、系统、硬件或者网络来接替它们的工作。故障转移系统称为:容错系统,所谓容错指的时可以容忍错误的发生,故障转移的核心为设置备份,出现故障情况时进行主备切换,切换的前提是数据保持一致性。
伸缩性(scalability)
伸缩性也称为弹性,可扩展性:指系统可以根据需求动态的扩容、伸缩
比如:双十一业务高峰期间,增加服务器,业务低峰期,减少服务器
归纳总结
负载均衡:解决一个处理不下的问题时,可进行多个问题一起处理 故障转移:解决单点故障,提高集群稳定性,减少容忍错误发生,业务联系 伸缩性:动态扩容、伸缩
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~