大数据导论

网友投稿 291 2022-11-18

大数据导论

大数据导论

大数据时代最早提出来大数据时代到来的是全球知名咨询公司“麦肯锡”,其称为:“数据,已经到当今每一个行业和业务职能领域,称其重要的生产因素,人们对于海量数据挖掘和运用,预示着新一波生产效率和消费者盈余浪潮的到来。”

大数据(big data)指无法再一定事件范围内用常规软件工具进行捕捉、管理、处理的数据集合,需要新的数据处理模式才能更具有强有力的决策力、洞察力、发现力。并且具备流程优化的海量、高增长率、多样化的信息资产。

数据概念

事实或观察的结果 对客观事物的逻辑归纳 用于表示客观事物且未加工的原始素材

数据单位

1Byte = 8bit

1K(千)=1024Byte

1MB(兆)=1024K

1G(吉)=1024M

1T(太)=1024G

1P(拍)=1024T

1E(艾)=1024P

1Z(泽)=1024E

1Y(尧)=1024Z

1B(布)=1024Y

1N(诺)=1024B

1D(刀)=1024N

大数据特征(5V)

Volume(体积)

数据体量大 采集数据量大 计算数据量大 TB、PB级别起步

Variety(多样)

种类来源多样化 种类:结构化、半结构化、非结构化 来源:日志文本、图片、音频、视频

Value(价值)

低价值密度 信息海量且价值密度低 深度复杂的数据挖掘分析需要使用机器学习参与

Velocity(速度快)

数据增长速度快 获取数据速度快 数据处理速度快

Veracity(质量)

数据准确性 数据可信赖程度

应用场景

1、电商领域

精准广告位、个性化推荐、大数据杀熟

2、传媒领域

精准营销、猜你喜欢、交换推荐

3、金融领域

信用评估、风险控制、客户细分、精细化营销

4、交通领域

拥堵预测、智能红绿灯、导航最优规划

5、电信领域

基站选址优化、舆情监控、客户用户画像

6、安防领域

犯罪预防、天网监控

7、医疗领域

智慧医疗、疾病预防、病源追踪

分布式技术

科学技术的发展推动下应用和系统架构的变迁

单机单一架构迈向多机分布式架构

面临问题

当数据大爆炸,海量数据处理场景面临问题:

1、如何存储

单机存储有瓶颈,使用多台机器分布式存储

2、如何计算

单机计算能力有限,使用多台机器分布式计算

分布式系统

分布式系统是一个硬件或软件组合分布再不同网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统,一群互相独立计算机器集合共同对外提供服务,对用户来说,就是一台计算机在提供服务。

分布式(distributed)

1、分布式

多台机器,在每台机器上部署不同组件

集群(cluster)

1、集群

多台机器,在每台集群部署相同组件

共同点:多台机器

负载均衡(load balance)

将负载(工作任务)进行平衡、分摊到多个操作单元上进行运算解决单个无法处理所有的任务,多个一起处理问题。

故障转移(fail over)

当活动的服务器或应用程序意外终止时,快速启用冗余或被你有的服务器、系统、硬件或者网络来接替它们的工作。故障转移系统称为:容错系统,所谓容错指的时可以容忍错误的发生,故障转移的核心为设置备份,出现故障情况时进行主备切换,切换的前提是数据保持一致性。

伸缩性(scalability)

伸缩性也称为弹性,可扩展性:指系统可以根据需求动态的扩容、伸缩

比如:双十一业务高峰期间,增加服务器,业务低峰期,减少服务器

归纳总结

负载均衡:解决一个处理不下的问题时,可进行多个问题一起处理 故障转移:解决单点故障,提高集群稳定性,减少容忍错误发生,业务联系 伸缩性:动态扩容、伸缩

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java中实现两个线程交替运行的方法
下一篇:回流法油酸值测试操作步骤_酸值测试操作流程
相关文章

 发表评论

暂时没有评论,来抢沙发吧~