当前位置: 主页 > 行业资讯 > 大数据培训 > 光环大数据分享百度公司的大数据面试题附答案

光环大数据分享百度公司的大数据面试题附答案

2018-03-19 17:57:11 作者：光环大数据栏目：未知

光环大数据作为国内知名的高端IT就业培训机构，多年来培养无数高薪人才！为了让更多人了解大数据、人工智能、数据分析、python等相关技能，光环大数据免费提供学习视频、2周免费跟班试听课程，如有需要，可点击留言！

大数据面试是很多人的弱点，明明自身技术还可以，但总是面试关过不去，大数据面试分为笔试和面试两方面，笔试必须要做好充足的准备，因为这个没有投机取巧的方法。下面分享百度公司的大数据面试题附答案。

百度公司的大数据面试题附答案

1、数据库的三大范式？

原子性、一致性、唯一性

2、List与set的区别？

List特点：元素有放入顺序，元素可重复，Set特点：元素无放入顺序，元素不可重复。

3、Hbase中的metastore用来做什么的？

Hbase的metastore是用来保存数据的，其中保存数据的方式有有三种第一种于第二种是本地储存，第二种是远程储存这一种企业用的比较多

4、对象与引用对象的区别

对象就是好没有初始化的对象，引用对象即使对这个对象进行了初始化，这个初始化可以使自己的直接new的也可以是直接其他的赋值的，那么背new或者背其他赋值的我们叫做是引用对象，最大的区别于

5、谈谈你对反射机制的理解及其用途？

反射有三种获取的方式，分别是：forName/getClass /直接使用class方式，使用反射可以获取类的实例。

6、描述 HBase, zookeeper 搭建过程

Zookeeper 的问题楼上爬爬有步骤，hbase 主要的配置文件有hbase.env.sh 主要配置的是JDK的路径以及是否使用外部的ZK，hbase-site.xml主要配置的是与HDFS的链接的路径以及zk的信息，修改regionservers的链接其他机器的配置。

7、hive 如何调优？

在优化时要注意数据的问题，尽量减少数据倾斜的问题，减少job的数量，同事对小的文件进行成大的文件，如果优化的设计那就更好了，因为hive的运算就是mapReduce所以调节mapreduce的参数也会使性能提高，如调节task的数目。

8、hive的权限的设置

Hive的权限需要在hive-site.xml文件中设置才会起作用，配置默认的是false，需要把hive.security.authorization.enabled设置为true，并对不同的用户设置不同的权限，例如select ,drop等的操作。

9、hbase宕机了如何处理？

HBase的RegionServer宕机超过一定时间后，HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久在HDFS中，

该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表，这会导致宕机的region在这段时间内无法对外提供服务。

而一旦重分布，宕机的节点重新启动后就相当于一个新的RegionServer加入集群，为了平衡，需要再次将某些region分布到该server。

因此，Region Server的内存表memstore如何在节点间做到更高的可用，是HBase的一个较大的挑战。