hadoop面试题

网友投稿 309 2022-11-24

hadoop面试题

1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴 2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师 4、(D)反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度 5、数据清洗的方法不包括( D)。(单,本题2分)A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表B:网络爬虫C:API接口D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分)A:数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新

8、智慧城市的构建,不包含(C)。(单选题,本题2分)A:数字城市B:物联网C:联网监控D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分)A:数据规模大B:数据类型多样 C:数据处理速度快D:数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B)。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据

11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高 12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分)A:互联网B:物联网C:综合国力D:自然资源 13、在数据生命周期管理实践中,(B)是(单选题,本题2分)A:数据存储和备份规范B:数据管理和维护C:数据价值发觉和利用 D:数据应用开发和管理

14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分)A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参考C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护

15、下列关于计算机存储容量单位的说法中,错误的是(C)。(单选题,本题2分)A:1KB<1MB<1GBB:基本单位是字节(Byte)C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符,

16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分)A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小

17、下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是(D)。(单选题,本题2分)A:美国B:日本C:中国D:韩国

18、下列关于大数据的分析理念的说法中,错误的是(D)。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据

19、大数据时代,数据使用的关键是(D)。(单选题,本题2分)A:数据收集B:数据存储C:数据分析D:数据再利用

20、数据仓库的最终目的是(D)。(单选题,本题2分)A:收集业务需求建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持

多选题: 1.下列哪项可以作为集群的管理?答案:ABDa)Puppetb)Pdshc)ClouderaManagerd)Zookeeper 2.配置机架感知的下面哪项正确:答案ABCa)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据 3.Client端上传文件的时候下列哪项正确?答案Ba)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block,依次上传c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作 4.下列哪个是Hadoop运行的模式:答案ABCa)单机版b)伪分布式c)分布式 5.Cloudera提供哪几种安装CDH的方法?答案:ABCDa)Clouderamanagerb)Tarballc)Yumd)Rpm 6.下面对HBase的描述哪些是正确的?B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库 7.MapReduce与HBase的关系,哪些描述是正确的?B、C A两者不可或缺,MapReduce是HBase可以正常运行的保证B两者不是强关联关系,没有MapReduce,HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系 8.下面哪些选项正确描述了HBase的特性?A、B、C、DA高可靠性B高性能C面向列D可伸缩 9.下面哪些概念是HBase框架中使用的?A、C AHDFSBGridFSCZookeeperDEXT3 10.下面对LSM结构描述正确的是?A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树 11HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。A、DA是byte[]数组B没有固定的结构C数据的大小是定长的D有固定的结构 12.HBase性能优化包含下面的哪些选项?A、B、C、DA读优化B写优化C配置优化 13.FusionInsightHD集群升级,一下描述正确的是?(ABCD)A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅,避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案 14.FusionInsightManager与外部管理平台对接时,支持哪些接口?(AD)A.SNMP;(正确答案)B.VPN;C.BGP;D.Syslog;(正确答案) 15.9.HBase的数据文件HFile中一个KeyValue格式包含哪些信息?()A.Key;(正确答案)B.Value;(正确答案)C.TimeStamp;(正确答案D.KeyType;(正确答案) 16.FusionInsightHG集群规划设计时,集群有150个节点,并采用双面组网部署,对于该集群网络宽带要求的描述,下面描述正确的有?(ACE)A.业务平面所有节点都使用10GE网络;(正确答案)B.管理平面中控制节点使用10GE网络;C.管理平面中数据节点使用1GE网络(正确答案)D.业务平面中控制节点使用1GE网络;E.管理平面管理节点使用10GE网络;(正确答案) 17.Hive支持的储存格式包括?(BCD)A.HFile;B.TextFile;(正确答案)C.SequenceFile;(正确答案)D.RCFile;(正确答案)BCD)

18.华为FusionInsightHD集群中,Spark服务可以从以下哪些服务读取数据?()A.YARN;B.HDFS;(正确答案)C.Hive;(正确答案)D.HBase;(正确答案) 19.FusionInsightHD系统中,关于Solr索引的存储部署一下说法正确的有()A.利用HDFS数据存储可靠性和易于扩容的特点优先选择索引存 储与HDFS。;(正确答案)B.不论Solr索引存储在HDFS上还是存储在本地磁盘,在同一个节点上都必须要部署5个Solr实例,根据ip和不同的端口号来区分不同的实例;C.当对实例索引录入速度要求较高时,可选择索引存放于本地磁盘;(正确答案)D.当索引数据存放在HDFS上时,SolrServer实例与DataNode实例部署在同一个节点上;(正确答案)

0.下面哪些概念是HBase框架中使用的?A、CAHDFS BGridFSCZookeeperDEXT3

判断题: 1.Ganglia不仅可以进行监控,也可以进行告警。(正确) 2.BlockSize是不可以修改的。(错误) 3.Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。(错误) 4.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。(错误) 5.ClouderaCDH是需要付费使用的。(错误) 6.Hadoop是Java开发的,所以MapReduce只支持Java语言编写。(错误) 7.Hadoop支持数据的随机读写。(错) 8.NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。(错误) 9.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。(错误) 10.Slave节点要存储数据,所以它的磁盘越大越好。(错误) 11.hadoopdfsadmin–report命令用于检测HDFS损坏块。(错误) 12.Hadoop默认调度器策略为FIFO(正确) 13.集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。(错误) 14.因为HDFS有多个副本,所以NameNode是不存在单点问题的。(错误) 15.每个map槽就是一个线程。(错误) 16.Mapreduce的inputsplit就是一个block。(错误) 17.DataNode首次加入cluster的时候,如果log中报告不兼容文件版本,那需要NameNode执行“Hadoopnamenode-format”操作格式化磁盘。(错误) 18.NameNode的WebUI端口是50030,它通过jetty启动的Web服务。(错误) 19.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。(错误) 20.FLume的数据流可以根据headers的信息发送到不同的channl中(正确)

填空题 1、hadoop 2.0 hdfs的默认block size 的大小是 128 MB 2、hbase 依靠  hdfs  存储底层数据 3、hbase 依靠 zookeeper  提供消息通信息机制 4、hbase中LSM含义是 日志结构合并树 5、Hfile 数据格式中的Data 字段用于存储实际的 keyvalue  数据 6、配置hadoop时,java_home包含在  hadoop-env.sh  配置文件中 7、hdfs中的block默认保存 3 份 8、datanode负责hdfs数据存储 9、hadoop中使用 zookeeper  组件实现hadoop namenode ha。 10、hadoop使用自已的序列代格工为writeable 11、rdd 叫做spark的分布式数据集。 12、RDD和它的父RDD的关系有两种依赖类型:窄依赖和 宽依赖 13、有向无环图英文简称:DAG 14、实现spark 共享变量有:广播变量和累加器  15、hive自定义函数的类型:UDF、UDAF、UDTF 16、hadoop集群有90个节点,如果控制节规划了3个,数据节点规划 87最为合适 17、lucene是支持随机读写的,而HDFS只是支持随机读,但是HBase可以来补救. 18\secondaryNode目的是帮助NameNode合并编辑日志,减少nameNode启动时间。 19\YARN的调度算法:FIFO Scheduler、Fair Scheduler、Capacity Scheduler。 20、hadoop 2.0 中 resource manager 程序通常与namenode在一个节点启动

回答题:

1、 Kafka都有哪些特点? •高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition,consumergroup对partition进行consume操作。•可扩展性:kafka集群支持热扩展•持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失•容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)•高并发:支持数千个客户端同时读写

2、Kafka分区的目的?分区对于Kafka集群的好处是:实现负载均衡。分区对于消费者来说,可以提高并发度,提高效率。

3、你知道Kafka是如何做到消息的有序性? kafka中的每个partition中的消息在写入时都是有序的,而且单独一个partition只能由一个消费者去消费,可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的。

5、hive like和rlike的区别 like:like是模糊匹配查询 rlike:rlike支持正则表达式。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:usb-c和type-c的区别
下一篇:书籍赠送丨《Flink jm、tm启动过程和资源分配》直播预告
相关文章

 发表评论

暂时没有评论,来抢沙发吧~