大数据除了Hadoop还有哪些常用的工具？-APISpace

大数据除了Hadoop还有哪些常用的工具？

大数据除了Hadoop还有哪些常用的工具？ 1．Hadoop大数据生态平台 2．Spark，大数据分析的“瑞士军刀” 3．Storm，实时大数据处理工具 4．Apache Drill 5．RapidMiner 6．Pentaho BI

大数据除了Hadoop还有哪些常用的工具？ 1．Hadoop大数据生态平台Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。 2．Spark，大数据分析的“瑞士军刀”Spark 也是 Apache 基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在 Hadoop 的基础上进行了一些架构上的改良。Spark 与 Hadoop 最大的不同点在于，Hadoop 使用硬盘来存储数据，而 Spark 使用内存来存储数据，因此 Spark 可以提供超过Hadoop100 倍的运算速度。但是，由于内存断电后数据会丢失，Spark 不能用于处理需要长期保存的数据。目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造，并提供了较方便的数据分析可视化界面。 3．Storm，实时大数据处理工具Storm 是 Twitter 主推的分布式计算系统，它由 BackType 团队开发，是 Apache 基金会的孵化项目。它在 Hadoop 的基础上提供了实时运算的特性，可以实时地处理大数据流。不同于 Hadoop 和Spark，Storm 不进行数据的收集和存储工作，它直接通过网络实时地接收数据并且实时地处理数据，然后直接通过网络实时地传回结果。 4．Apache Drill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel。 5．RapidMinerRapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。 6．Pentaho BIPentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。 ===============1.开源大数据生态圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成.开源生态圈活跃，并免费，但Hadoop对技术要求高，实时性稍差. 2. 商用大数据分析工具一体机数据库/数据仓库（费用很高）IBM PureData(Netezza), Oracle Exadata, SAP Hana等等.数据仓库（费用较高）Teradata AsterData, EMC GreenPlum, HP Vertica 等等.数据集市（费用一般）QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等. 前端展现用于展现分析的前端开源工具有JasperSoft，Pentaho, Spagobi, Openi, Birt等等. 用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等. ===============Top Tools (Platforms) / Technical Skills in Big Data Analytics:第一个就是 HadoopHadoop: Hadoop is one of the most in-demand tools in the field. It is an open source platform for distributed data storage. NoSQL: Common database that are often the source of data crunched in Hadoop. In the world of Big Data Hadoop and NoSQL are opposite sides of a virtual cycle. Flume: it allows businesses to collect, aggregate and move massive amount of log data. Chef: Chef is a configuration management tool for server management. It can integrate with public cloud systems like Rackspace, Amazon EC2, Google Cloud Platform, OpenStack, Microsoft Azure etc. ABAP: a programming tool from SAP. Pig: a platform for analyzing large data sets with ease, better optimization and extensibility. HBase: an open source platform for non-relational and distributed database Cloudera: One of the most popular next-generation data management and analytics platforms. It provides one of the fastest, secure and fastest Apache Hadoop-based software, support and services. MapReduce: a programming model for processing and generating large data sets on a cluster. Cassandra: NoSQL database system designed for handling large data sets across commodity servers. PaaS: a cloud computing service that provides platform to customers to develop, run and manage applications in the cloud without the need of building and maintaining complex underlying infrastructure. YARN: a large-scale, distributed operating system for Big Data applications. Hive: another platform analyzing large data sets. First created at Facebook, Hive is a data warehouse system for Hadoop that allows easy data summarization, ad-hoc queries, and analysis of large data sets.

c语言sscanf函数的用法是什么

282 2022-11-23

大数据除了Hadoop还有哪些常用的工具？

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）