hadoop面试题-APISpace

hadoop面试题

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分）A：微软B：百度C：谷歌D：阿里巴巴 2、大数据的起源是（C）。（单选题，本题2分）A：金融B：电信C：互联网D：公共管理 3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（C）。（单选题，本题2分）A：数据管理人员B：数据分析员C：研究科学家D：软件开发工程师 4、（D）反映数据的精细化程度，越细化的数据，价值越高。（单选题，本题2分）A：规模B：活性C：关联度D：颗粒度 5、数据清洗的方法不包括（ D）。（单，本题2分）A：缺失值处理B：噪声数据清除C：一致性检查D：重复数据记录处理 6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。（单选题，本题2分） A：统计报表B：网络爬虫C：API接口D：传感器 7、下列关于数据重组的说法中，错误的是（A）。（单选题，本题2分）A：数据重组是数据的重新生产和重新采集B：数据重组能够使数据焕发新的光芒C：数据重组实现的关键在于多源数据融合和数据集成D：数据重组有利于实现新颖的数据模式创新

8、智慧城市的构建，不包含（C）。（单选题，本题2分）A：数字城市B：物联网C：联网监控D：云计算 9、大数据的最显著特征是（A）。（单选题，本题2分）A：数据规模大B：数据类型多样 C：数据处理速度快D：数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（B）。（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据

11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D）。（单选题，本题2分）A：数据规模大B：数据类型多样C：数据处理速度快D：数据价值密度高 12、当前社会中，最为突出的大数据环境是（A）。（单选题，本题2分）A：互联网B：物联网C：综合国力D：自然资源 13、在数据生命周期管理实践中，（B）是（单选题，本题2分）A：数据存储和备份规范B：数据管理和维护C：数据价值发觉和利用 D：数据应用开发和管理

14、下列关于网络用户行为的说法中，错误的是（C）。（单选题，本题2分）A：网络公司能够捕捉到用户在其网站上的所有行为B：用户离散的交互痕迹能够为企业提升服务质量提供参考C：数字轨迹用完即自动删除D：用户的隐私安全很难得以规范保护

15、下列关于计算机存储容量单位的说法中，错误的是（C）。（单选题，本题2分）A：1KB＜1MB＜1GBB：基本单位是字节（Byte）C：一个汉字需要一个字节的存储空间D：一个字节能够容纳一个英文字符，

16、下列关于聚类挖掘技术的说法中，错误的是（B）。（单选题，本题2分）A：不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别B：要求同类数据的内容相似度尽可能小C：要求不同类数据的内容相似度尽可能小

17、下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（D）。（单选题，本题2分）A：美国B：日本C：中国D：韩国

18、下列关于大数据的分析理念的说法中，错误的是（D）。（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据

19、大数据时代，数据使用的关键是（D）。（单选题，本题2分）A：数据收集B：数据存储C：数据分析D：数据再利用

20、数据仓库的最终目的是（D）。（单选题，本题2分）A：收集业务需求建立数据仓库逻辑模型C：开发数据仓库的应用分析D：为用户和业务部门提供决策支持

多选题： 1.下列哪项可以作为集群的管理？答案：ABDa)Puppetb)Pdshc)ClouderaManagerd)Zookeeper 2.配置机架感知的下面哪项正确：答案ABCa)如果一个机架出问题，不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据 3.Client端上传文件的时候下列哪项正确？答案Ba)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block，依次上传c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 4.下列哪个是Hadoop运行的模式：答案ABCa)单机版b)伪分布式c)分布式 5.Cloudera提供哪几种安装CDH的方法？答案：ABCDa)Clouderamanagerb)Tarballc)Yumd)Rpm 6.下面对HBase的描述哪些是正确的？B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库 7.MapReduce与HBase的关系，哪些描述是正确的？B、C A两者不可或缺，MapReduce是HBase可以正常运行的保证B两者不是强关联关系，没有MapReduce，HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系 8.下面哪些选项正确描述了HBase的特性？A、B、C、DA高可靠性B高性能C面向列D可伸缩 9.下面哪些概念是HBase框架中使用的？A、C AHDFSBGridFSCZookeeperDEXT3 10.下面对LSM结构描述正确的是？A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树 11HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A、DA是byte[]数组B没有固定的结构C数据的大小是定长的D有固定的结构 12.HBase性能优化包含下面的哪些选项？A、B、C、DA读优化B写优化C配置优化 13.FusionInsightHD集群升级，一下描述正确的是？（ABCD）A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅，避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案 14.FusionInsightManager与外部管理平台对接时，支持哪些接口？（AD）A.SNMP;(正确答案)B.VPN;C.BGP;D.Syslog;(正确答案) 15.9.HBase的数据文件HFile中一个KeyValue格式包含哪些信息？（）A.Key;(正确答案)B.Value;(正确答案)C.TimeStamp;(正确答案D.KeyType;(正确答案) 16.FusionInsightHG集群规划设计时，集群有150个节点，并采用双面组网部署，对于该集群网络宽带要求的描述，下面描述正确的有？（ACE）A.业务平面所有节点都使用10GE网络;(正确答案)B.管理平面中控制节点使用10GE网络;C.管理平面中数据节点使用1GE网络(正确答案)D.业务平面中控制节点使用1GE网络;E.管理平面管理节点使用10GE网络;(正确答案) 17.Hive支持的储存格式包括？（BCD）A.HFile;B.TextFile;(正确答案)C.SequenceFile;(正确答案)D.RCFile;(正确答案)BCD）

18.华为FusionInsightHD集群中，Spark服务可以从以下哪些服务读取数据？（）A.YARN;B.HDFS;(正确答案)C.Hive;(正确答案)D.HBase;(正确答案) 19.FusionInsightHD系统中，关于Solr索引的存储部署一下说法正确的有（）A.利用HDFS数据存储可靠性和易于扩容的特点优先选择索引存储与HDFS。;(正确答案)B.不论Solr索引存储在HDFS上还是存储在本地磁盘，在同一个节点上都必须要部署5个Solr实例，根据ip和不同的端口号来区分不同的实例;C.当对实例索引录入速度要求较高时，可选择索引存放于本地磁盘;(正确答案)D.当索引数据存放在HDFS上时，SolrServer实例与DataNode实例部署在同一个节点上;(正确答案)

0.下面哪些概念是HBase框架中使用的？A、CAHDFS BGridFSCZookeeperDEXT3

判断题： 1.Ganglia不仅可以进行监控，也可以进行告警。（正确） 2.BlockSize是不可以修改的。（错误） 3.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误） 4.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误） 5.ClouderaCDH是需要付费使用的。（错误） 6.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错误） 7.Hadoop支持数据的随机读写。（错） 8.NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错误） 9.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误） 10.Slave节点要存储数据，所以它的磁盘越大越好。（错误） 11.hadoopdfsadmin–report命令用于检测HDFS损坏块。（错误） 12.Hadoop默认调度器策略为FIFO（正确） 13.集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（错误） 14.因为HDFS有多个副本，所以NameNode是不存在单点问题的。（错误） 15.每个map槽就是一个线程。（错误） 16.Mapreduce的inputsplit就是一个block。（错误） 17.DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行“Hadoopnamenode-format”操作格式化磁盘。（错误） 18.NameNode的WebUI端口是50030，它通过jetty启动的Web服务。（错误） 19.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。（错误） 20.FLume的数据流可以根据headers的信息发送到不同的channl中（正确）

填空题 1、hadoop 2.0 hdfs的默认block size 的大小是 128 MB 2、hbase 依靠 hdfs 存储底层数据 3、hbase 依靠 zookeeper 提供消息通信息机制 4、hbase中LSM含义是日志结构合并树 5、Hfile 数据格式中的Data 字段用于存储实际的 keyvalue 数据 6、配置hadoop时，java_home包含在 hadoop-env.sh 配置文件中 7、hdfs中的block默认保存 3 份 8、datanode负责hdfs数据存储 9、hadoop中使用 zookeeper 组件实现hadoop namenode ha。 10、hadoop使用自已的序列代格工为writeable 11、rdd 叫做spark的分布式数据集。 12、RDD和它的父RDD的关系有两种依赖类型：窄依赖和宽依赖 13、有向无环图英文简称：DAG 14、实现spark 共享变量有：广播变量和累加器 15、hive自定义函数的类型：UDF、UDAF、UDTF 16、hadoop集群有90个节点，如果控制节规划了3个，数据节点规划 87最为合适 17、lucene是支持随机读写的，而HDFS只是支持随机读，但是HBase可以来补救. 18\secondaryNode目的是帮助NameNode合并编辑日志，减少nameNode启动时间。 19\YARN的调度算法:FIFO Scheduler、Fair Scheduler、Capacity Scheduler。 20、hadoop 2.0 中 resource manager 程序通常与namenode在一个节点启动

回答题：

1、 Kafka都有哪些特点？ •高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition,consumergroup对partition进行consume操作。•可扩展性：kafka集群支持热扩展•持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失•容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）•高并发：支持数千个客户端同时读写

2、Kafka分区的目的？分区对于Kafka集群的好处是：实现负载均衡。分区对于消费者来说，可以提高并发度，提高效率。

3、你知道Kafka是如何做到消息的有序性？ kafka中的每个partition中的消息在写入时都是有序的，而且单独一个partition只能由一个消费者去消费，可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的。

5、hive like和rlike的区别 like：like是模糊匹配查询 rlike：rlike支持正则表达式。

c语言sscanf函数的用法是什么

328 2022-11-24

hadoop面试题

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

php怎么获取input输入的值

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）